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مدخل إلى التنقيب 
4 بيانات العلوم اللاجتماعية 


مغقدمه المترجم 


لاشكَ في أن أي مشروع بحث علمي يعتمد التحليل والتمحيص. للإجابة عن 
أسئلة شائكة يتوسل بطرق تحليلية تتوخى قدراً كبيراً من الدقة» بغية منح نتائجه 
مصداقية ومرجعية متميزتين. ولعل الاهتداء إلى استنباط الأنماط المفيدة» ذات 
الصلة الوثيقة بأهداف المشروع البحثي داخل بيانات ضخمة:» يضيع في تفاصيلها 
الباحث. هو المفتاح الرئيس نحو تحقيق هذا المبتغى. ضمن هذا التصور العام. يقدم 
بول أثيويل ودايفد موتاغان مدخلا مفيداً فى النتفيب فى البيانات» الذي يشير إلى 
إحدى أهم الطرق الحديثة في التعامل مع معالجة البيانات» ورصد الأنماط الهامة 
المتصلة بغاية البحث. 


إن التنقيب في البيانات؛ أو ما يطلق عليه أحياناً اسم استكشاف البيانات أو 
المعرفة» عملية من عمليات تحليل البيانات» وتلخيصها ضمن معلومات مفيدة» قد 
تستخدم مثلاً في زيادة الدخلء أو تخفيض التكاليف أو هما معاً. وإِنّ برمجيات 
التنقيب في البيانات هي إحدى الوسائل التحليلية العديدة المسخرة في عملية التتقيب 
في البيانات؛ فهي تمكن المستخدمين من تحليل البيانات انطلاقاً من أبعاد ورؤى 
مختلفة» وتصنيفهاء وتلخيص العلاقات المرصودة. ومن الناحية التقنية» يعد التنقيب 
في البيانات» عملية تحدد الارتباطات (00111360005©) أو الأنماط الموجودة بين 
عشرات الحقول في قواعد البيانات العلائقية (102]86356©5 166132]10231) الضخمة. 
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صحيح إن التنقيب في البيانات هو اصطلاح جديدء ولكن التقنية مألوفة» ذلك 
بأن الشركات سبق أن استعملت حواسيب قوية في غربلة أحجام كبيرة من بيانات 
الماسح الضوئي للأسواق الضخمة؛ وتحليل تقارير بحثية عنها. ومع ذلك يبقى هذا 
التحليل محدوداً بالمقارنة مع ما وصلت إليه الابتكارات المستمرة في مجال المعالجة 
الحاسوبية» وتخزين القرصء والبرمجيات الإحصائية التي رفعت من دقة تحليل 
البيانات على نحو لافت للنظر. وقد تكون البيانات وقائع أو أعداداً» أو نصوصاً 
يمكن أن يخضع إلى المعالجة الحاسوبية» كما أن التقدم الذي تم تحقيقه في مجال 
برمجيات الحاسوبء مكنت المنظمات والشركاتء وغيرهاء من دمج قواعد بياناتها 
في مستودع البيانات (056ا0آ:17/3 1(38): إذ تدار داخله البيانات بشكل منظم 
وتسترجع منى شاء المحلل ذلك. ومن بين هذه البرمجيات التحليلية» نذكر البرمجيات 
الإحصائية» وبرمجيات التعلم الآلي (8«نتاتةع.آ 6ذطء803)» وبرمجيات الشبكات 
العصبية» بحيث تسعى كلها إلى البحث في «الأصناف» (0185568)» و«التجميعات» 
(51655ا1©).» و«الترابطات» (45506131005). «والأنماط التسلسلية» 081)معناوء5) 


(125ع23. 


ولدى التنقيب في البيانات» مستويات مختلفة من التحليل كالشبكات العصبية 
الاصطناعية» والخوارزميات الجينية» وتفرعات القرارء وطريقة أقرب الجيران» 
واستقراء القاعدة» وتصور البيانات» وغيرها من المستويات والطرق التحليلية. 

لقد ظل المؤلفان - من أولى كلمات الكتاب إلى نهايتها - يدافعان بحماس عن 
التنقيب في البيانات باعتبارها طريقة أو مقاربة بديلة عن النمذجة الإحصائية التقليدية» 
التي تعجز عن معالجة البيانات الضخمة؛ والمألوفة لدى معظم علماء الاجتماع. 

وقبل أن أختم هذه المقدمة المقتضبة: لا بد من الإشارة إلى المشاكل الجمّة التي 
رافقتني طيلة القيام بترجمة هذا الكتاب العلمي الهام. لما عرض علي كتاب 10014 
0 11 :5م5011 [50010 ©1876 107 ع 1111171 شد انتباهي عنوانه» 
وشغلت تفكيري عبارة 318128 18308, بخاصة. حاولت أن ارشهها دون اللجوء 
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إلى محتوى الكتاب برمته» فعجزت؛ وبعد الاطّلاع على الكتاب ومراميه» حاولت مع 
ذلك الاستئناس ببعض الجهود الترجمية التي تعرضت لهذه الكلمة الحبلى بالمعاني 
التقنية» فوجدت مَنْ ترجمها بعبارة "استنباط البيانات»» ومن ترجمها بعبارة «التنقيب 
عن البيانات». لم تقنعن أي من الترجمتين» ذلك بأن الأولى تهمل معنى التنقيب الذي 
استعاره الكاتبان لإيصال فكرتهماء والثانية تذكر كلمة التنقيب المطلوبة في إبراز ما 
يرومه المؤلفان» غير أن استعمالها اللغوي الذي يتبع حتماً بحرف «عن»» يوحي 
للقارئ بأن البيانات قيد الدرس غير موجودة أصلاًء ومن ثم» وجوب جمعها. أمام 
هذا القصور في فهم العبارة» وترجمتها ترجمة تلتزم بروح المعنى الذي يتوخاه 
الكاتبان» اقترحت عبارة التنقيب في البيانات» التي تقتضي وجود بيانات في المقام 
الأول» تخضع للتنقيب بغية فهم ما بها من أسرار تحليلية هيكلية. 


ِنْ ترجمة النص العلمي الذي قد تترتب عنه اختراعات وبناء تصورات؛ خطيرة 
جداًء خطورة ترجمة النص الديني أحياناً ولهذا كانت معظم قراراتي المتعلقة بانتقاء 
الأنسب من المقابلات العربية» صعبة للغاية؛ فالمصطلحات العلمية (الرياضية منهاء 
والحاسوبية» والإحصائية بخاصة)» جديدة على الساحة العلمية» وتتطلب من الباحث 
المترجم ذكاءً استثنائياً نحت مقابلاتها في اللغة العربية؛ لا أُخف القارئ أن رحلتي 
كلها مع هذا الكتاب المتفرد في الهدف والشكلء كانت رحلة شك في كل كلمة 
مدرجة بشكل مستقل أو مضافة» سواء كانت سهلة جداً أو متباينة الصعوبة» ولهذا 
تراني أحياناً أقترح المقابل وأتبعه بكتابته بالحروف الإنجليزية (0ه0أكهمع)ناقصة1). 


وأخيراً أشكر المنظمة العربية للترجمة في شخص مديرها العام أ. د. هيثم 
الناهى؛ الذي منحنى كَل هذه الثقة للتصدي لكتاب علمى من هذا العيار الثقيل. كما 
أشكر زوجتي التي شجعتني على ترجمة الكتاب دون تردد» ووفرت لي الأجواء 
المناسبة لإتمامه. 


عبد النور خراقي 
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إهداء 


إلى عائلتى» كاتى» وتيفان» ودايفد. الذين دفعنى 
3 
دعمهم ومودتهم إلى كل ما قمت به. 
بول أتيويل 
إلى زوجتي الرائعة» ميليندا على حبهاء 
ودعمهاء وتشجيعها. وإلى والدي على حبهماء وتوجيههما. 


انفد موتاغان 
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شكر وتقدير 


إن التنقيب في البيانات - خاصة باعتباره تخصصاً يُطَبّقَ على بيانات العلوم 
الاجتماعية - هو مجال بحثء يعرف تغيراً متسارعاً. واستفاد فهمنا لهذه الطرق 
الجديدة بشكل هائل من تعليم الآخرين ونصحهمء خصوصاً الأستاذ روبرت ستاين» 
وروبرت هاراليك» وأندرو روزنبورغ. هذاء وقد ساهم العديد من الطلاب» ممن 
يستعملون هذه التقنيات في مشاريع الدكتوراه. بحكمتهم. 

أولاً وقبل كُل شيء. أَعدّ دارين كوونغ العديد من الأمثلة التي وردت في هذا 
الكتاب, متصارعاً أحياناً أثناء مباشرة العمل مع عناد البرمجيات» كما نظم دارين أيضاً 
سلسلة ندوات عامة» لا تقدر بثمن عن التنقيب في البيانات في مركز كوني للدراسات 
العليا في نيويورك التي تطلعنا على الطرق الكمية الجديدة. وقد شاطر كَل من ديرك 
ويتيفين وأندرو والاس استبصاراتهما ومهاراتهما حول تقنيات حاسوبية مختلفة» 
يتقنونها. وساهمت وينغوان وتشنغ بعملها الجادء لإتمام مهمة لا تبغي من ورائها 
شكراً خاصاً. وثمة طلبة متخرجون آخرون كثر لا يمكن ذكرهم جميعاًء المسجلين 
في دورات التكوين بسلك الدكتوراه في مجال التنقيب في البيانات» والذين منحونا 
فرصة اختبار أفكارنا وشروحاتنا لهذه الطرق. 


15 


وأخيراً وليس آخراًء إننا مدينون بالشكر الجزيل لمؤسسة العلوم الوطنية» التي 
دعمت منحتها التي تحمل رقم 1243785:آ10(11, بحثنا وأنشطة أخرى ذات الصلةء 


بما في ذلك التنقيب في البيانات في العلوم الاجتماعية والسلوكية» وفي التعليم. 
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الهرء اللأرل 
مفاهيم 


(لنصل اللأُرل 
ما القصود بالتنقيب في البيانات؟ 


يطلق اسم التنقيب في البيانات (1111128 102]8) (1(01/1) على مجموعة من تقنيات 
الحاسوب المكثفء. بغية استكشاف البنية» وتحليل الأنماط فى البيانات. ومن خلال 
استخدام تلك الأنماط» يمكن للتنقيب في البيانات أن ينتج نماذج تنبؤية» أو يصنف 
الأشياء أو يحدد مجموعات أو تجميعات (011151]615) مختلفة من الحالاات داخل 

3 3 

البيانات. وقد سبق استخدام التنقيب في البيانات» وبطرق أخرى مثل التعلم الآلي 
(ومنصسوع.آ عصنطءة]32)» والتحليلات التنبؤية (65/ز[همخ عنانأءنلء:2).: فى الانجار 
بشكل واسعء وأخذ ينتشر في العلوم الاجتماعية» ومجالات بحث أخرى. 

وتضم القائمة الجزئية لمناهج التنقيب في البيانات الحالية ما يلي: 

© قواعد الارتباط (11165آ1 4550190100) 


© تقسيم تكراري (ع نه نامة2 علاأوتناء126) أو أشجار القرار 106©15102) 
(17665» بما في ذلك التصنيف وشجرة الانحدار 0طة 12551116200108 0) 
(وعع17 مهزووعتعع 1 (1[ذنا)). ومربع كاي للكشف عن التفاعل التلقائي 
(م1اأععاء0آ1 ملاع هتعام1 عاأهستماسة لع تدناوكحتط)) (مل[لفكطت). 
وأشجار معززة (17665 8005]60). وغابات» وغابات نظام تمهيدي لتشغيل 
الحاسوب (5أوع101 م80015]18). 
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©« نماذج الشبكة العصبية المتعددة الطبقات 601[12اء]8 2[1تناء71 1ء/1.23آ -13101111) 
(5اع25400 و مناهج «التعلم العميق» (1.63111128 زء106). 


© مصنفات «بايز) (00135511615 833:65) الساذجةء والشبكات «البايزية» 
(0115نتتا ]1 مهزوع:133) . 


© المناهج التجميعية». (216]5005 01115]61188) بما فى ذلك أقرب المجاورات 
التراتبية خوارزمية «ك-مينز) (قطةء]/1-1)» والتجميع المتعدد الخطى وغير 
الخطى. 


© شعاع الدعم الآلى (وعصتطعة]/8 ماءء7؟ 11مممن5) . 


© انمذجة لينة» (58ذا21006 5016) أو نمذجة متغيرة المربعات الصغرى الكامنة 


(ضعغ2][ 5011215 أموع.آ لمتاتو2) . 


يُعد التنقيب في البيانات علم حديث العهد, ولكنه ينمو نمواً فائق السرعة؛ إذ 
تظهر - في اللحظة الراهنة من حديثنا - طرق جديدة» وتعدل طرق قديمة» وتتراكم 
استراتيجيات ومهارات تمكن من استخدامها. لقد أصبحت قوة التنقيب في البيانات 
وأهميتها تحظى باعتراف واسع النطاق» إذ في غضون السنتين الماضيتين فقطء 
ضخت المؤسسة الوطنية للعلوم» ملايين الدولارات للنهوض بمبادرات بحث 
جديدة في هذا المجال. 


ويمكن تطبيق طرق التنقيب فى البيانات على ميادين مختلفة جداًء مثل البيانات 
المرئية» أو قراءة خط اليد (القراءة اناف عر أو التعرف على الوجوه داخل 
صور رقمية. كما يستخدم التنقيب في البيانات في تحليل النصوص (مثل تصنيف 
مضمون المقالات البحثية أو وثائق أخرى)» ومن ثم ظهور عبارة التنقيب في النصوص 
(21128 1626 ). علاوة على ذلك» يمكن تطبيق تحليلات التنقيب فى البيانات على 
التسجيلات الصوتية (20نا50 218111260) للتعرف - مثلاً - على كنات 5 فى 
محادثات هاتفية. ولكننا سنركز في هذا الكتاب على المجال الأكثر شيوعاً: استخاراء 
طرق التنقيب في البيانات لتحليل البيانات الكمية (1(2]8 011321180196) أو الرقمية. 
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إن عمال المناجم ينقبون عن عروق المعدن الخام» ويستخرجون هذه الأجزاء 
النفيسة من الصخور المحيطة. وقياساً على ذلك؛ يسعى التنقيب في البيانات إلى 
التنقيب عن أنماط أو بنية فى البيانات. ولك اذا تفص عند قر لنا إننا نفك غوواقة 
داخل ينانات 8 تصيور شاشة عاسو مه الى تفرن الاك البيكياقه أ قاط 
الضوء أو الظلام (1*615©)» التي تعد بيانات عاط أو أولية. ولكن لو فحصت تلك 
البيكسلات عبر العين» وتعرفت - فى داخلها - أشكال الحروف والكلمات» فإنك 
بصدد إيجاد بنيات في البيانات - أو متخن استعارة أخرى» فإنك بصدد تحويل 
البيانات إلى معلومة (101015026105) . 


إذ “قاين باق العاسوبه تاجة! إلى الناناض «الرقهية): دول سييد 
عع طصول1620م5) أو مصفوفة (10183111)» بحيث تمثل كَ خانة متغير (عاطفمةك؟) 
واحداًء وكل سطر (1808) يضم بيانات بالنسبة إلى شخص أو حالة مختلفين. كما 
تضم كل خلية داخل الجدول الممتدء قيمة محددة بالنسبة إلى شخص واحد 

كيف يتسنى إدراك الأنماطء أو الانتظامء أو البنية في هذا النوع من البيانات 
الأولية الرقمية؟ يقدم علماء الإحصاء طرقاً متنوعة للتعبير عن العلاقات القائمة بين 
الخانات والأسطر في جدول ماء والمصفوفة الترابطية (<1/18111 001161210)) هي 
إحدى هذه الطرق الأكثر تتيوعا: وعوضاً عن ترديد (62)128م16) البيانات الأولية 
(123]3 /1581)) المؤلفة من آلاف الملاحظات. وعشرات المتغيرات يمكن أن تمثل 
المصفوفة الترابطية مجرد العلاقات بين كُل متغيرء وكل متغير آخر على حدة. إنها 
ملخصء أي إنها تبسيط للبيانات الأولية. 

القليل منا مَنْ يستطيع قراءة المصفوفة الترابطية ببساطة» أو يدرك نمطأ هادفاً 
فيهاء باستثناء قلة قليلة. من أجل هذاء نتوسل - إجمالاً - بخطوة ثانية للبحث عن 
بنيات فى بيانات رقمية؛ فتبتكر نموذجاً يلخص العلاقات فى المصفوفة الترابطية» 
مثل نمو دج انحدار المربعات الصغرى (11687655108 2508 أقدع.آ 0315/7 0101). 
الذي يترجم هذه المصفوفة الترابطية إلى معادلة انحدار (801080102 دماووعروء1) 
متناهية في الصغرء يمكننا فهمها وتفسيرها بسهولة أكثر. 
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ومع ذلك يعد نموذج إحصائي لا أكثر من مجرد كونه تلخيصاً مشتقاً من بيانات 
أولية» بل هو أيضاً أداة للتنبؤ (2:601110)» وهى الخاصية التى تجعل من التنقيب 
في البيانات مفيدة» خاصة. إن البنوك راكع ننانات ضخمة (242م ع118) حول 
الزبائن» بما في ذلك تسجيلات تهمّ أولئك المتخلفين عن الإيفاء بتسديد القروض» 
وإذا ما تمكن محللون مصرفيون من تحويل تلك البيانات إلى نموذج يسمح على 
نحو دقيق» بمن سيتخلف عن أداء قرض ماء فسيكون باستطاعتهم رفض الطلبات 
الجديدة الأكثر مجازفة بشأن الحصول على القروضء ومن ثم تجنب الخسائر. وإذا 
ما تمكنت شركة أمازون كوم (41182011.00177)» من تقييم الأذواق بشأن الكتب التي 
تستهوي الميول الشخصية: استناداً إلى المقتنيات السابقة» مع رصد أوجه التطابق بين 
عملاء آخرين» ومن ثم العمل على الإغراء بعرض كتب مختارة بعناية» فتحقق هذه 
الشركة مزيداً من الأرباح. وإذا ما تمكن طبيب ماء من الحصول على تمْريسة بالرنين 
المغناطيسي النووي (5082 8/2411)» لنسيج الخلاياء والتنبؤ - انطلاقا من تلك 
البيانات - بما إن كان ورم ماء خبيثاً أم حميداً» فستكون رهن إشارة الطبيبء أداة قوية. 


إن عالمنا يعج بالبيانات الرقمية» ومن خلال عملية التنقيب فيهاء بغية إيجاد 
أنماط ما - خاصة أنماط قادرة على التنبؤ بنتائج مهمة بشكل دقيق - يمكنها تقدم 
خدمة قيمة للغاية. فالتنبؤ الدقيق» يمكن أن ينذر بقرار» ويفضي إلى العمل على 
انَخاذه. وإذا كان ذلك النسيج الخلوي خبيثاً على الأرجح. فلا بد للمرء - إذن - من 
برمجة عملية جراحية؛ وإذا كانت نسبة الخطر المتوقعة عالية بشأن تخلف الدائن عن 
أداء القروضء فلا تقرضه. 

ولكن لماذا الحاجة إلى التنقيب فى البيانات من أجل هذا؟ أليست هذه الطرق 
الإحصائية التقليدية غير قادرة على القيام بأداء الوظيفة نفسها على أتم وجه؟ 


لا شك في أن الطرق الإحصائية التقليدية تمنح نماذج تنبؤية» غير أنها لا تسلم 
من نقص كبير. من أجل ذلك» ظهرت طرق التنقيب في البيانات باعتبارها بديلاً عن 
الطرق التقليدية» وأحياناً بديلاً أفضلء أقل ارتهاناً بتلك المشاكل. وسنقوم لاحقاً 
تعذاد مزايا متعددة للثنقيت فى البيانات» غير أثنا تقتصر حالياً على الميزة الأكثر 
وضوحاً. إن التنقيب في البيانات مناسب خاصة»ء لتحليل مجموعات بيانات 
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(5ا©1(8]85) كبيرة 58 ذات متغيرات و(أو) حالات عديدة» تعرف بالبيانات الضخمة 
(8)ه2[ ع1ا8) . 


وأحياناً تنهار طرق الإحصاء التقليدية لدى تطبيقها على مجموعات كبيرة جداً 
من البيانات» ومرد ذلكء إما إلى عجزها عن معالجة مظاهر حاسوبية» وإما إلى 
مواجهتها عوائق أكثر جوهرية في التقدير عندما تحتوي - مثلاً - مجموعة بيانات 
على متغيرات تفوق الملاحظات؛ وهو مزج تعجز نماذج الانحدار التقليدية عن 
معالجته. ولكن تتوفق فيه طرق عديدة من التنقيب في البيانات. 


لا يقتصر التنقيب في البيانات على التغلب على بعض النقص الذي تعاني منها 
طرق الإخصاء التقليذية» بل تساعد أيضاً على تجاوز بعض النقص البشري. وقد 
يغفل باحث ما سمات مهمة من البيانات» وهو يواجه مجموعة بيانات مكونة من 
مئات المتغيرات وآلاف مؤلفة من الحالات. بالنظر إلى قلة الوقت والانتباه. على 
سبيل المثالء من السهل نسبيأء فحص ست متغيرات للبث في تحويل أي منهاء 
وجعلها أكثر تطابقاً مع منحنى جرسي (0506ا0 18611), أو توزيع طبيعي 2/057081) 
(1215]:110]10. ومع ذلك؛. سيصاب محلل بشري ما بالارتباك بشكل سريع لدى 
محاولته تطبيق الأمر نفسه على مئات المتغيرات. وعلى النحو ذاته» قد يرغب باحث 
ما في فحص تفاعلات إحصائية بين متنبئين في مجموعة بيانات معينة» ولكن ما الذي 
سيحدث لما يكون ذاك الشخص ملزماً بالأخذ بعين الاعتبار تفاعلات بين عشرات 
المتنيئين؟ إن عدد التركيبات المحتملة تنمو بشكل كبير جداًء إلى درجة أن أي محلل 


بشري يجد نفسه في وضع لا يحسد عليه. 

وتعد تقنيات التنقيب في البيانات - في هذه الحالة - مفيدة» لأنها تساعد جزياً 
على «أتمتة) (ع]2م]ناث) تحليل البيانات» من خلال تحديد المتنبئات الأكثر أهمية 
بين عدذ كبير من المتغيرات المستقلة: أومن خلال تحويل المتغيرات آليأء إلى توزيعات 
أكثر فائدة» أو عبر اكتشاف التفاعلات المعقدة بين المتغيرات» أو عبر استجلاء الأشكال 
غير المتجانسة السائدة في مجموعة بيانات ما. ويتخذ الباحث البشري قرارات حاسمة» 
ولكن طرق التنقيب في البيانات تؤثر في قدرة الحواسيب على مقارنة بدائل عديدة» 
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وتحديد أنماط قد يهملها المحللون من البشر بسهولة نء5قه 7/111 :2005 ع1.3:05) 
(2009 اع صنلا ته جتع810 باعوط1ل8 :1 201 عاتطتاكمآ لو٠طه01‏ . 


ومحصلة ذلك أن التنقيب في البيانات كثيف جداً حسابياًء ذلك بأنه يستخدم 
قدرة الحاسوب للتنقيب عن البيانات بغية استخلاص أنماط معينة» والبحث عن 
التفاعلاات «الخفية» , بين المتغيرات» واختبار طرق بديلة أو مزج نماذج لتعظيم دقة 


.اع 


تنبؤه. 

أهداف هذا الكتاب 

ثمة كتب عديدة عن التنقيب فى البيانات؟ فبماذا يمتاز هذا الكتاب عن غيره» 
إذن؟ قد يفكر المرء فى أدبيات حول عقون فى التباناضة باعتبارها كعكة مكونة من 
عدة طبقات؛ حيث تتناول طبقتها السفلى التصورات والنظريات التي تشكل الدعامة 
الأساسية للتنقيب في البيانات. هذه أمور جوهرية» ولكنها مستعصية على الفهم. ولم 
يكن هدف هذا الكتاب الرئيس» تناول الأشياء تقنيا على مستوى عالٍ جداء ولكن 
يمكن للمهتمين من القراء الاطّلاع على جوانب من ذلك. من خلال الرجوع إلى 
النسخة الإلكترونية من النص الكلاسيكي من إنتاج هاستي (ع1)كوة11). وتيبشيراني 
(تمهمحتطوط11)» وفريدمان (مهصلعةءط): أمعتاكتاماى زه كاننء ه21 ©17) 
(2009) (1301لء1ل 1272 تبه ,171/121 ,©1/11711171 12014 :1,6077111 وتوجد نسخة 
مجانية على الرابط التالي: 

.111114م_[لأمآ قط //آآ[0/اعع اامة/ما؟. لدعه [1/ع مقط /نحلع. 21010 ]1777/5 ) 
04م 

وإذاما تح ركنا تصاعدياًء فسنجد الطبقة الموالية من أدبيات التنقيب فى البيانات» 
المتضمنة الخوارزميات (41801115125) الحاسوبية التى تطبق تلك التق ناك 
الرياضية على البيانات. وتتجلى القضايا الجوهرية في هذا السياق» تنجلى في تقليص 
الوقت المطلوب لأداء عمليات رياضية ومصفوفة («دنة]/ة). واخثبار الاسترائيجيات 
الحاسوبية الناجعة» القادرة على تحليل حالة واحدة على حدة؛ أو القيام بعدد محدود 
جدا من التنققللات عبر مجموعة بيانات ضخمة. وتكون استراتيجيات الحاسوب 
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الناجعة» حاسمة بخاصة - وبشكل سريع - عند تحليل بيانات ضخمة» تتألف من 
مئات الآلاف من الملاحظات. ويمكن أن يشتغل برنامج حاسوب غير ناجع لأيام 
لإنجاز تحليل واحد. وهذا الكتاب لا يخوض في المستوى الخوارزمي البتة؛ والقراء 
المهتمون. يمكنهم الرجوع إلى كتب تان (182)» وشتاينباخ (اءةطاماء]5)» كومار 
(32مننت1) (2005) وويتن (مع11/16). وإيبي (18810). وهول (11311) (2011). 


وفي الطبقة العليا من أدبيات التنقيب في البيانات» يجد المرء كتباً حول استخدام 
إحداث ثورة شاملة في شركاتهم من خلال تبني التنقيب في البيانات أو «تحليل 
الأعمال» باعتبارها استراتيجية عمل. ومع ذلكء ليس ذلك هدفناء بل إن هذا الكتاب 
يقدم مدخلا قصيرا غير تقني لأولئك الذين يهتمون باستخدامها في تحليل بيانات 
كمية» ولا يعرفون - مع ذلك - الكثير عن هذه الطرق. إن هدفنا الرئيس هو تفسير 
عمل التنقيب في البيانات» وكيفية اختلافها عن أنواع مألوفة أو راسخة للغاية» من 
التحليل الإحصائى والنمذجة (3240061128)» والوقوف عند بعض مواطن القوة 
والضعف التي يتميز بها التنقيب في البيانات. ولبيان تلك الأفكارء يبدأ الكتاب 
بمناقشة التنقيب في البيانات بشكل عام, لا سيما ما يتعلق بمنظوره المتميز حول 
تحليل البيانات؛ وتنتقل المناقشة بعد ذلك, إلى تقديم الطرق الرئيسة أو الأدوات 
داخل التنقيب فى البيانات. 


ويتحاشى الكتاب - فى مجمله - الرياضيات» ولكن يفترض معرفة أساسية 
بالإحصائيات التقليدية» ويفرض - على الأقل - الإلمام بقدر ضئيل بالانحدار 
المتعددا'؟ (5وزووع7عع86 عامناآت3). والانحدار اللوجيستي 10815]06) 
(5655:00ع86. ويقدم القسم الثاني من هذا الكتاب, أمثئلة عن تحليلات البيانات 
بالسبة إلى كل تطبيق على ححدة أى'آدلة مق أذوات التتقيب فى البيانات» كما د 
الكتاب القارئ على تأويل مخرجات البرمجيات (010011) 501]7/31))» ويناقش كل 
مثال من الأمثلة التي علمتنا. ويضم هذا الكتاب «حيلاً» عديدة» يستخدمها محللو 
البيانات في تحليلاتهم» ويبرز بعض المآزق قصد تجنبهاء أو يقترح طرقاً لاحتواتها. 
(1) يمكن أيضاً ترجمة هذه العبارة ب «التراجع المضاعف» (المترجم). 
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وبعد الانتهاء من قراءة هذا الكتابء تكون مطالباً - على نحو عام - بفهم معنى 
التنقيب في البيانات» وإدراك غايات استخدامها من لدن محلل البيانات» وتكون قادراً 
على اختيار أدوات التنقيب في البيانات المناسبة من أجل القيام بمهام خاصة. وقادرا 
أيضاً على تفسير مخرجاتها. ويبقى بعد ذلك استخدام أدوات التنقيب في البيانات - 
بالأساس - مسألة ممارسة» ومسايرة لحقل يشهد تقدماً بوتيرة متسارعة وعلى نحو 
غير عادي. 

برمجيات ومعدات من أجل التنقيب في البيانات 

تستخدم شركات كبيرة برامج الحاسوب المكتوبة للعملاء في تطبيقات 
(1121025ممة) التنقيب في البيانات» ويشغلونها مستخدمين الحاسبات الكبرى 
(05ةأمزنة81) فائقة السرعة, أو تجميعات حاسوبية© (75عأقن1© تعاناممه©) 
قوية. وتعد - على ما يبدو - تلك الأنواع من الحواسيب» أفضل الحواسيب البيئية 
المستعملة في تحليل البيانات الضخمة (103]8 818). ولكن ليست في متناول السواد 
الأعظم منا. ولكن» لحسن الحظ أن هناك منتوجات متعددة» تمزج أدوات متعددة 
للتنقيب في البيانات» في حزمة واحدة أو مجموعة برمجيات (16أنا5 ©5010/81)) 
يتم تشغيلها ضمن نظام ويندوز (17/1200175) على حاسوب شخصي. 


إن جي. أم. ب (11015) التي تنطق «غامب برو»» وهي برمجيات إحصائية من 
وأدوات تعليمية أخرى. إن برمجيات «غامب برو» سهلة الاستخدام نسبياً بواسطة 
استعمال منهجية الإشارة والنقر (اع0:ممذ عاء1ان) -لتة حاضزه2) . ومع ذلك. فهى 
تفتقر إلى بعض أدوات التنقيب فى البيانات التحليلية الأكثر حداثة. 


وتعد الحزمة الإحصائية للعلوم الاجتماعية عطا 101 عيهاعة© 1ع ا5)2)15) 
(وععمعنء5 500121 (5525) التى تملكها شركة آي. بي. إم (/181). أقدم المنتوجات 
البرمجية» وأكثرها رسوخاً في تحليل البيانات» متوسلة بطرق إحصائية تقليدية مثل 


(2) يجوزأيضاً ترجمة العبارة ب «عناقيد حاسوبية» (المترجم). 
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الانحدار (مه1أووعمع1). والتبويب المزدوج (1112610ط18'-05055))» و«اختبار-ءت» 
(أوء1-1) (أئ اختبار المقارنة بين متوسطين)» وتحليل العامل (0215/515ل 1'30101). 
ونحوها. وتضم النسخة «المهنية» للحزمة الإحصائية للعلوم الاجتماعية في نُسَخِها 
الأكثر حداثة (أي 20 وما فوق)» طرقاً عديدة لعملية التنقيب في البيانات» بما في ذلك 
نماذج الشبكات العصبية (15ع1100 11م /اعل8 1دكناء13[1). والطرق الآلية الاخطية 
(110015 011:تاءل5 02160و اناك )» والتجميع (0!05]65128). وهذه الطرق برمتها 
سهلة الاستعمال. لأنها برامج (250873125) تعتمد «الإشارة والنقرا» ومدخلاتها 
(015ام12) ومخرجاتها (115م0114)» مصممة تصميما محكما. ولعل هذاء سيكون 
المكان الأفضل لمبتدئ ماء لتذوق بعض طرق التنقيب في البيانات. 


وتضم حزمة التنقيب في البيانات الأكثر تقدماء التي تدعى مُنْدمج الآي. بي. إم» 
والحزمة الإحصائية للعلوم الاجتماعية (21006167 5855 182/1) اختياراً أكبر من 
طرق التنقيب في البيانات. ويعد هذا البرنامج أكثر تعقيدا للتعليم من الحزمة 
الإحصائية للعلوم الاجتماعية المطردة؛ لأنه يستلزم من المرء ترتيب أيقونات متعددة 
داخل عملية من العمليات» ووضع خيارات متنوعة» أو مَعْلمات (75عاعصيةة5). 
ومع ذلكء يوفر المُنمِذِج» مجموعة كاملة من أدوات التنقيب في البيانات. 


وثمة منتوجات برمجية تجارية أخرى للحواسيب» تضم بعض أدوات التنقيب في 
البيانات داخل برمجياتها الإحصائية العامة» ومن ذلك» تقديم ماثووركس ماتلاب 
(31411.48 112111/0115) التنقيب فى البيانات داخل «نظامى عدة» (5ع:100150) 
متخصصين : وهما الإحصاء والشبكات الم وتضم حزمة ستاتيستيكا (ه1506اة51) 
التابعة ل استاتسوفت»» مجموعة من التنقيب في البيانات. وتعد تقنية الإكس . إل. ماينر 
(20156 1ع) مضافا تجاريا بالنسبة إلى التنقيب في البيانات التي تشتغل مع برنامج 
إكسيل (1:061) جد ولي (5056205161) لمايكر وسوفت (2110505010). 

وبغض النظر عن البرمجية التجارية» ثمة حزمات مجانية متعددة من التنقيب فى 
البيانات لفائدة الحواسيب؛ إذ تعد برمجيات الرابدماينر (72ع101/15م3خ1)., موف 
من البرامج الواسعة للتنقيب في البيانات» تم تطويرها في ألمانيا. ومؤخرء ضمت 
معها برامج أخرى من برامج الويكا للتنقيب في البيانات (22/1 91/618)» مكتوبة في 
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اللغة «آر.»!2) (28نا1.208 1). ونتيجة لذلك» يقدم الزايذمايتر لحد الآنء أكبر عددا 
من برنامج التنقيب في البيانات المتوفرة حاليا في منتوج برمجي مستقل. وهو أيضا 
متوفر بالمجان على الرابط (010-1.6020م8//:ماغط). من أجل الاستزادة. وتأخذ 
البرمجيات وقتاً كبيراً قبل أن يتمكن الفرد من إتقانها؛ فهي تستخدم مقاربة مخطط 
انسيابى (1107/1816)» تشمل سحب الأيقونات إلى مساحة عملء وربطها داخل 
برنامج أو تسلسل (عع مع نوع 5) . وهذه الفكرة مألوفة لد واضعي برامج الحاسوب 
(72655تطهرع5:0). ولكن قد تأخذ من الآخرين بعض الوقت لتعلمها. ومع ذلك» 
فالمستخدم لا يكتب أوامر أو شفرة (0006). إن ثمة قدراً كبيراً من التوثيق عبر 
الإنترنت» إلى جانب المدخل إلى برمجيات الرابدماينئر الذي كتبه نورث 
(2012 78]015) وأفرد نسخة مجانية له على الرابط: /3دمء.ءدهطممع01.0//:ماغط) 
(5.501ع1255/اعط 011 "[ع طنم1779972/10221/1 13. 


ويعد ويكاء أحد البرامج القديمة للتنقيب في البيانات» وهو متاح أيضاً بالمجان 
على الرابط (2كء7/ اد/ ط.ع10.2انة:.88783.05/ ). لقد تم تطويره في 
توزيلت: وهر شرك ترتيعا جا يشكلا انسناتي» بحت يميم كنا موسوعا 
(112112011 200 ,ءطاذظ1 ,17/1]6), وبرامج تعليمية عبر الإنترنت: .60510. 05. /99/10/90) 


01م.1121مانة حمعاء/ امعلتقمط-/ نالع . 


وإن راتل (16216) (10م».ع12116.6052772//:م511)» واجهة من واجهات 
المستخدم الرسومية (12]651806 11565 01811081) المجانية بالنسبة إلى مجموعة 
من أدوات التنقيب فى البيانات المتوافرة فى لغة «آر.»؛ (و«آر.» نفسه تحميل مجانى). 
كما أن «راتل» موئق ا 00 بما فى ذلك احتوائه على كتاب مدرسى 06 
0 71111315. ويعد «ترامايئر) (عص ه10 / اءبعع تصد.ه ستجاصع مه //:ماط) 
(065نتططقتا برنامجاً مجانياً من البرامج المتخصصة. التي تم تطويرها في سويسرا 
لتحليل متواليات وبيانات طولانية (1.0881]0015281آ). وليس هذا بديلاً» ولكن مكملاً 
بشكل أعم لبرمجيات التنقيب في البيانات. 


(3) اقترن حرف «الراء» بكلمة «لغة» نسبة لحرف الراء الموجود فى بداية الاسمين الأولين: روس إيهاكا 
(0علهطآ 55ه1) وروبرت جانتلمان (مقصءاامء0 ترءطه2)ء لأن الفضل يرجع إليهما فى اكتشاف هذه 
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ولا أحد يعلم حزمة البرمجيات المتنافسة التي ستسود في الأعوام القادمة» ومن 
ثم سيكون من الصعب علينا أن نوصي ببرمجية تستثمر فيها جهدك لتتعلمها. وإذا 
كانت تهمك سهولة الاستخدام أكثر من أي شيء آخرء فيمكنك - إذن - البدء 
بالحزمة الإحصائية للعلوم الاجتماعية المهنية (2801655100281 5255).: أو ١غامب»‏ 
(1245). ومن ناحية أخرىء إذا أردت الولوج إلى اللوحة الكاملة لتقنيات التنقيب في 
البيانات» فإن المنمذج (:72100616) أو «رابدمايئر»» قد يكون اختيارا جيدا. 


ملاحظة تحذيرية حول معدات الحاسوب 


إن معدي برمجيات التنقيب في البيانات لأجهزة الحاسوب. يميلون إلى التقليل 
من أهمية تهيئة 0 ) البرمجيات الضرورية لاستخدام منتوجاتهم 
بفاعلية. وقد دفعت برمجيات التنقيب فى البيانات» أجهزت الحواسيب القائمة على 
«الويندوز» إلى حدودها القصوى؛ جل لخدام أجهزة الحاسوب المكتبية العادية 
لتشغيل برمجيات التنقيب فى البيانات» يكتشف المرء أن بعض التحليلات تشتغل 
ببطء شديد» وبعضها يصاب العطراق أرط نراقن فجأة»» حتى عندما تكون مجموعات 
البيانات غير كبيرة. ولتجنب تلك الإحباطاتء من الأفضل استخدام جهاز حاسوب 
قوي ما أمكن. يحتوي - على الأقل - على 8 «جيغا بايت» (68) من الرامات 
(8.53). أي الذاكرة العشوائية في الهواتف والحواسيبء (ويفضل أن يكون أكثر من 
ذلك). ومعالج معلومات متعدد النواة (02ووءء2:0 016 80141) (مثلاً معالجات 
«إنتل» من الجيل السادسء (7 18:611)). وحتى ذلك الحينء قد تحتاج إلى استراحة 
لتناول قهوة, تاركا في الوقت نفسه بعض البرامج تشتغل. 

وتحتاج الكمية الكبيرة من المعلومات إلى محركات أقراص صلبة 0:ة11) 
(1811765» ولكن أصبحت محركات تيرابايت -1 أو-2» خيارات غير مكلفة عند 
شراء حاسوب جديد. أما بالنسبة إلى معظم مجموعات البيانات (1(8]886]5): فتكفيها 
محركات أقراص صلبة صغرى. وتشكل - على ما يبدو - قراءة البيانات عقبة عندما 
يكون التنقيب في البيانات على جهاز الحاسوبء ولعل سرعة معالجة الذاكرة ووحدة 
المعالجة المركزية ([081)» هي العوامل المحددة. 
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يعتبر التنقيب في البيانات حقل معرفي متعدد التخصصء ساهم فيه كل من 
علماء الحاسوب» والرياضيين» وعلماء الاجتماع التطبيقى. وتعكس مصطلحات 
التنقيب فى البيانات هذه الأصول المتنوعة. هناك بعض المصطلحات الأساسية 
والمفاهيم التي ينبغي على القارئ الاطّلاع عليها منذ البداية. 


إن ما يصطلح عليه الإحصائيون بالمتغيرات (1/8:186165) - مثلاء طول 
شخص ماء ووزنه» ولون عينيه» أو عنوان عميل ماء ورقم هاتفه» ورمزه 
البريدي - هي عادة ما تُدعى سمات (0765نةع1) أو ميزات (وعأناط6اام) 
من لدن علماء التنقيب في البيانات» وعلماء الحاسوب. 


يميز علماء الإحصاء بين المتغيرات المستقلة (1986165ه/آا أدعلمءمء120) 
(التي هي متنبئات (2:601010155)). والمتغيرات التابعة 6206174م106) 
(1/31135165 (وهي القياس الذي تم تنبؤه)» وعندما يتحدث علماء التنقيب 
في البيانات عن الشيء نفسه. سيشيرون إلى السمات أو الميزات التي تُتنبأ 
بهدف ما. وفي سياقات معينة» يستعملون أيضاً مصطلح فئة (01355©) أو رقعة 
تعريف (12061) (عوض هدف»). قاصدين بذلك المتغير التابع المتتا به: 


يحتوي نموذج (840061) ماء سمات أو ميزات رقمية» ممزوجة بطريقة 
رياضية داخل تنبؤ من تنبؤات متغير الهدف (18218016 أأ»1818). وفى 
حالاات عديدة» يعد نموذج من نماذج التنقيب في البيانات». معادلة تربط 8 
سمات مرصودة عديدة بقيمة متنبأ بها بالنسبة إلى المتغير الهدف. وغالبا ما 
يتم بلوغ ذلك التنبؤ من خلال عملية ضرب القيمة المرصودة 060561760) 
(165ا[ة/ لكل متغير أو سمة فى عدد ما (الوزن أو المعامل (0015106)) 
خاص بذلك المتغير» تيه ات تلك المكوّنات معاً. وإن هذه القيم 
المناسبة لتلك الأوزان والمعاملات هي ما يِبْتّ فيها البرنامج (أو يستكشفه 
أو يتعلمه) لدى بناء نموذج ما. 


إن علماء التنقيب في البيانات» يتحدثون عن تركيب نموذج ما. وتشير هذه 
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# 


الغتارة أختاناء إلى | انماع كفده تمندطة معنة» رأسيانا كتين إلى ايان 
المتغيرات وشكلها ضمن نموذج» وتعديلاتها. وأحياناً أخرى. تشير العبارة 
إلى عملية ذات قيمة تقريبية مفرطة» حيث من خلالها يقترب نموذج ما - 
لدويجياً تن وضت البنانات وضقا دفيقا: 


تدعى بعض المقاييس (المدرجة في قسم لاحق». علم الإحصاء التطابقي 
(وع ]5215 116) أو حساب الدوال. إنها تصف مدى تطابق البيانات مع 
نموذج التنقيب في البيانات» أي إلى أي حدّ تُطابقٌ القيمة المتوقعة لهدف ما 
بالنسة إلى كل خالة أو :فخضن"القيمة الحقيقية المرضودة تذلك الف 
بالنسبة إلى ذلك الشخص. إن هدف تحليل من تحليلات التنقيب في 
الييانات» إنتاج تموذج دقيق التنبؤء أو كما تقول» يطابق البيانات بشكل جيد. 
ويمكن مقارنة الإحصاء التطابقي للبت في النموذج أو الطريقة التي تقوم 
بأداء جيد لمعالجة مجموعة بيانات محددة. 


ويشير مصطلح التعلم الآلي (8#صتصدع.]آ عمنطءة384) إلى تحليلات 
الحاسوب التي تنتج نموذجاً يتنبأ بأنماط في بيانات» أو يصنفهاء أو يحددها. 
وإن العديد من طرق التنقيب فى البيانات هى طرق تكرارية (1]6721196)» إذ 
تمر في الذانة ابلط نو الخطراكة التي تقدم تقديراً أولياً أو جواباً. 
وبعدهاء تحصل بعض الطرق على تقديرات أفضلء من خلال إضافة مزيد 
من الأدلة (مزيد من الحالات أو البيانات) لتغيير التقديرات الأولى. وتعمل 
طرق أخرى بمبدأ التجربة والخطأ (#ممتدظ لصه 1021 ). إذ حلت تغييرات 
صغيرة على التقديرات الأولى» وترى ما إن كان التنبؤ المحصل عليه أفضل 
من التنبؤ السابق. وفي كلتا المقاربتين» يعيد برنامج التنقيب في البيانات» 
سلسلة من الخطوات مرات متعددة - أي تنكرر - حتى تصبح التقديرات أو 
الحلول أكثر دقة مع كل دورة إضافية على حدة. وإن هذه العملية التدريجية» 
التي تشمل تقديرات أفضل على التوالي تفضي إلى استعارة التعلم الآلي. 
يميز علماء التنقيب في البيانات بين التعليم الآلي الخاضع للإشراف والتعلم 
الآلي غير الخاضع للإشرافء وذلك لكون نوع التعليم الأول يشير إلى طرق 
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تلك البيانات حيث وجود كُل من المتغيرات المستقلة» والمتغيرات غير 
المستقلة على السواء (أي سمات وهدف ما أو رقعة تعريف (1.2061)). وفي 
مرحلة بناء النموذجء يدرك المحلل سلفاًء القيمة الحقيقية للهدف أو للمتغير 
المستقل بالنسبة إلى كُلَ حالة على حدة. ومن ثم يضم النموذج استكشاف 
صيغة أو تعلمهاء تتنبأ بشكل دقيق القيمة المرصودة للهدف. مستخدمة القيم 
المرصودة للسمات». ويدعى هذا أيضا النموذج التعليمي (15810108). ومن 
ناحية» «تشرف» البيانات المستهدفة على عملية التعلم )2 
(870655. وفي مراحل متعاقبة من البحثء قد تستخدم تلك الصيغة أو ذلك 
النموذج للتنبؤ بقيم الهارنم بالنسبة إلى بيانات جديدة» حيث القيم الحقيقية 
غير معروفة (وتدعى أحيانا بيانات خارج العينة (ء1مدمة0101-04-5)). وفي 
المقابل» هناك طرق أخرى أو أدوات للتنقيب في البيانات حيث انعدام أي 
متغير هدف (أو رقعة تعريف أو فئة) يتنأ به. وفي لغة علم الإحصاءء ليس 
هناك «متغير مستقل»» ويدعى هذا النوع الثاني من التنقيب في البيانات الذي 
يفتقر إلى الهدفء التعليم غير الخاضع للإشراف. ولا يزال برنامج الحاسوب 
أو نموذج الحاسوب في طور التعلم (إيجاد بنية)» ولكنه لا يستخدم متغير 
الهدف باعتباره مرشدا له. وما السعى إلى وجود تجميعات ذات حالاات 
متشابهة داخل مجموعات بيانات إلا مثال واحد للتعليم غير الخاضع 
للإشراف. 

في مجال التنقيب في البيانات» يشير مصطلح اختيار السمات 16لااهه1) 
(5616105 إلى تقليص عدد المتغيرات أو السمات ليتم تضمينها في نموذج 
من خلال تحديد المهم منها وسحب الباقي» بحيث يمكن - مع ذلك - لما 
تبقى منها التنبؤ بالهدف. 

ولاستخلاص السمات (28:052100 ع1نا)دع"1) الغاية نفسهاء المتمثلة فى 
بلوغ متغيرات أقل» غير أنه في استخلااص السمات. تُنتِج المتغيرات الأصلية 
المنهارة رياضياء مجموعة محدودة جديدة من المتغيرات داخل متغيرات 
قليلة جديدة. من خلال مزج بعضٍ منها ضمن مقاييس (508165). 
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وأحياناً يدعى النمط أو البنية في البيانات» الإشارة. وبسبب خطأ مقياس 
(1متدظ اتاعصرءساكد»781) أو تقلبات عشوائية (200085للاعنا11 مهلم 12). 
فإن هذه الإشارة تمتزج مع الضجيج (أو تتلوث به). ويأتى الضجيج من 
انعدام الدقة في القياسء أو من عوامل سياقية فريدة» تؤثر في حالات معينة 
أو أشخاص معينين فى مجموعة البيانات ()102]856) على نحو مختلف عن 
حالات مماثلة أخرى. وعادة مايتم تصور الضجيج باعتباره عشوائياء بما أنه 
- من حيث التصور - نقيض الأنماط أو البنيات في البيانات. ويأتي هذا 
التماثل انطلاقا من الأيام الأولى التي ظهر فيها جهاز الراديوء عندما كاد 
صوت (أي الإشارة) المذيع أن يلحقه تشويش بسبب الطقطقات وضجيج 
ماء ناتج عن خلفية أخرى» تجعل من الصعب إنتاج الإشارة. وسةض 

ل و ل ا 31 
البيانات الآأولية دائما مزيجا من الإشارة والضجيج» و سعى كل تحليلاات 
التنقيب في البيانات إلى التمييز بين الإشارة والضجيج. 


وقد عمم مؤرخ العلوم - توماس كوهن (مطنا؟ا .5 كقتدمط1) (1962) - 
مصطلح النموذج (النموذج الأصلي) (935301877) للإشارة إلى مدارس 
الفكر العلمي. وصور كوهن تقدم العلوم, باعتباره عملية تنافسية اصطدمت 
فيها أحيانا مدرسة من مدارس الفكر (نموذج واحد) - ذات باحثين» وطرق 
بحث خاصة بها - مع مدرسة أو نموذج جديد» ضم منخرطين» وتصورات» 
وطرق بحث مختلفة. وعندما يتفوق نموذج جديد على آخر قديم» يسمي 
كوهن ذلك النقلة النوعية (51116 2231301817). وفى هذا الكتاب. سنقارن ما 
نسميه النموذج التقليدي أو الثابت لتحليل البيانات الكمية بالتتقيب في 
البيانات» التي تعتبره النموذج الأصلي ناشئ جديد. قد يحدث التنقيب في 
البيانات نقلة نوعية» ولكن من الممكن أيضاً أن تُستوعب تقنيات التنقيب فى 
البيانات ببساطة داعل تموذج تحليل البيانات القديمة في المستقبل- ويشير 
علماء التنقيب في البيانات إلى بعديّة البيانات (/10112675108116). للحديث 
مثلا» عن مشكل ذي بعد مرتفع (100سمعصطل©ط طعذ11)؛ أو عن فك يشنيو 
إلى تخفيض الأبعاد (011611012ع1 21011261151012 وقياس المساحة كَل هذه 
المصطلحات تستعمل استعارة حيزية للتفكير في البيانات؛ فلنشرح, إذن. 
هذه الاستعارة. 
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توجد في الحيز المادي الذي نعيش فيه ثلاثة أبعاد - الطولء الارتفاع» والعمق 
- ذات إحداثيات (00010123165) ممثلة على المحاور < ولا و2. ويمكن لكل من 
هذه الأبعاد الموجودة في الحيز أو الفضاءء تمثيل متغير واحد في مجموعة بيانات ما. 
ومن ثمء فإذا كانت لدينا بيانات بشأن ثلاثة متغيرات - تخص مثلاً طول الأشخاص» 
ووزنهم. ومعدل دخلهم - فسنتعامل مع متغير الطول بصفته <. ووزنه بصفته لا» 
ومعدل دخله بصفته 2. وبعدهاء يكون بإمكاننا تخطيط(]210) كل ملاحظة فى هذا 
الحيز ذي الثلاثة أبعاد. وتحديد موقع القيم على المحاور * ولا و2» لتمثيل طول كُلٌ 
شخص على حدة» ووزنه. ومعدل دخلهء ووضع نقطة (1000) في الحيز الذي يوافق 
قيم << ولا و2 لذلك الشخص. 


وإذا واصلنا تنقيط مجموعة البيانات برمتهاء فسنرى آلاف النقاط في الحيزء 
بعضها موجود ضمن تجميعات كثيفة» وبعضها الآخر قائم بذاته. وإن هذه النقاط 
التي وضعت للأشخاص الذين يملكون قيماً مماثلة محددة على هذه المتغيرات أو 
الأبعاد الثلاثة» يتدانون فيما بينهم» في حين إن الأشخاص الذين يختلفون فيما بينهم 
وفق الأبعاد الثلاثة» يتباعدون على نحو مستقل. 

ويمكن للرياضيين أن يصوروا أكثر من حيز بمئات أبعاده. ويصطلحون على 
تسميته بالحيز ذي الأبعاد المرتفعة (5ع26م5 0510281ع1(10-طا1118)؛ ففى عالمنا 
ذي الأبعاد الثلاثة» لا يمكننا رسم حيز ذي الأبعاد المرتفعة أو بنائه» ركد يكنا 
تصور عالم له أبعاد عديدة. وهذا أمر مفيد» لأن مجموعات البيانات تضم - إجمالا 
- أكثر بكثير من ثلاث متغيرات» وتوافق مجموعة بيانات ماء ذات متغيرات عديدة» 
حيزا ذا أبعاد مرتفعة: 


إن كُلَ ملاحظة في مجموعة بيانات ماء يمكن (في خيالنا) تنقيطها في نظام 
إحداثي («اعاولا5 000101081) ذي مئات الأبعادى. وليس فقط ثلاثة» بحيث يمثل 
كَل بعد متغيراً واحد: ويستخدم علماء التنقيب في البيانات حيز الاستعارة للحديث 
عن قياس المساحة» ويقصدون بذلك الحيز ذا الأبعاد المتعددة الذي يضم بياناتهم. 
كما يفكرون أيضاً في البنية داخل بياناتهم أو في العلاقات بين المتغيرات في البيانات 
من حيث الأنماط والأشكال في هذا الحيز النظري ذي الأبعاد المرتفعة. 
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وفي ضوء هذه الاستعارة» تضم بعض البنيات سحاباً كثيفاً من نقاط البيانات 
مجتمعة في هذا الحيز المتعدد الأبعاد. لأن قيمها فى عدة متغيرات أو أبعاد متماثلة. 
وك تيل نات أخرى اعتباروها يقالا ببانات منظلمة فون خط طووال بترت ذلك إن 
تمثل بنيات أخرى (أو علاقات بين متغيرات) باعتبارها مستويات مسطحة, أو أسطح 
منحنية أو أسطح مشكلة تشكيلاً غريباً. (يسمي الرياضيون هذه الأشكال تحدبات 
(5110105ة]2)): بحيث يمثل كُلَ شكل من الأشكالء علاقة رياضية ماء بين بعض 
المتغيرات في مجموعة البيانات. 


إن بعض طرق التنقيب في البيانات - في هذا العالم التصوري لأبعاد عديدة - 
تشتغل وفق عملية إسقاطء تُترجم البيانات رياضياً من حيز ذي أبعاد أكثر ارتفاعاً إلى 
حيز ذي أبعاد أكثر انخفاضاًء لأنه من السهل التعامل مع مسألة رياضية ذات أبعاد أقل. 
إن هذا الإسقاط ممكن. لأن البنيات أو العلاقات البارزة فى الحيز ذي الأبعاد الأكثر 
ازتقاغاء غالبا ما تكون مخفوظة غندما يتم إسقاطها في حير ذي بعد أقل اتخفاضاً. 
وهذا يعادل عملية تقليص متغيرات عديدة» واكتشاف أن العلاقات الأساسية 
محفوظة. 

وأما طرق أخرى من طرق التنقيب فى البيانات» فتعمل فى الاتّجاه المعاكس: إذ 
إن المشكلة الى ضعي لها مشورلة فى كيردي أكاد اك اتكنافن لكف إسقاملة 
علق حيو د عاد أكل رفاغ قن تضبح معالجته أسهل رياضياً باستخدام حيلة 
النواة 151010 1.©261). وتستخدم طرق عديدة من طرق التنقيب في البيانات هذه 
الاستر اتيجية» من أجل تصنيف الملاحظات,. كما ستبين الأمثلة ذلك لاحقا. 
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الفصل (الثانى 
عقد المقارنات بين نموذج التنقيب في البيانات 
وبين المنهجية الإحصائية التقليدية 


يقدم التنقيب في البيانات منهجية لتحليل البيانات» تختلف في مناح مهمة عن 
الطرق الإحصائية التقليدية التي بَسَطَتْ هيمنتها خلال العقود القليلة الماضية. في 
هذا القسمء سنبرز بعض التباينات بين النموذج الأصلي (براديغم)!! الناشئ للتنقيب 
في البيانات» وبين المقاربة الإحصائية التقليدية لتحليل البيانات قبل تفصيل القول - 
ضمن فصول لاحقة - فى الطرق أو الأدوات الفردية التى تشكل التنقيب فى البيانات. 
ولبيان هذه التباينات» سنتوسل بالانحدار المتعددا2) (موزووعموعه عامنان3/1). 
للإشارة إلى المنهج التقليدي» بما أن هذه الطريقة الإحصائية تشكل دعامة تحليل 
البيانات التقليدية فى العقود الأخيرة - إلى جانب امتداداتها وفروعهاء بما فى ذلك 
الانحدار اللوجيستى» وتحليل الحدث التاريخى» والنماذج متعددة المستويات» 
ونماذج التسجيل الخطي (15ع200 دعم1.[-ع1.0)» ونمذجة المعادلة الهيكلية 
(1125ع7/100 ده اأقناوظ 21تناء ستاك ) . 


وستبرز هذه المقارنة المنهجية بعض مواطن الضعف والصعوبات داخل 
النموذج الأصلي التقليديء التي لم تعد إشكالية في منهجية التنقيب في البيانات. 
(1) لم استعمل كلمة «نموذج» بمفردها بل أضفت لفظ براديغم إلى جانبهاء درءاً لأي خلط قد يحصل في 
الفهم بين «اء8100» و«58:301812»؛ الكلمتين الإنجليزيتين اللتين تترجمان بنفس اللفظة العربية انموذج» 
(2) تترجم العبارة أيضاً ب «التراجع المضاعف», وقد تكون الأنسب في المجال الحاسوبي. غير أننا لا نمانع 
استخدام الاثنين (المترجم). 
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ومع ذلك. لا يعني خلو هذه المنهجية من المشاكلء عندما ترانا نشدد على مزالق 
النموذج التقليديء بل على العكس من ذلك تماماً؛ فللتنقيب في البيانات نقائصه. 
التي سيحدد بعض منها في الأقسام اللاحقة. 

القوة التنبؤية في النموذج الإحصائي التقليدي 

في التحليلات الإحصائية التقليدية مثل الانحدار» يركز محلل ما - عادة - على 
القيم الرقمية» أو معاملات (00665616015) ذات متنبئات مهمة في نموذج ما. إِنَّ 
القوة التنبؤية أو التناسب التنبؤي (]51) لذاك النموذجء عادة ما تكون له أهمية ثانوية 
(2001 ,86128). وكل ذلك راجع إلى الهدف الرئيس للعديد من الباحثين ممن 
يستخدمون الطرق التقليدية» اختبار فرضيات حول متنبئات (2160101015) خاصة:؛ أو 
فهم كيفية ارتباط المتنبئات الفردية بالمتغير التابع (©1361ه/ا أمعلمءم»12). وتمثل 
تلك العلاقات» المعاملات بالنسبة إلى كَل متغير في انحدار من الانحدارات أو 
نموذج تنبؤي آخر. 

ومع ذلك. دائماً ما تُذكر قياسات تَناسُبٍ النموذج 51 810061 في تحليلات 
بيانات تقليدية. ويعد قياس 872. وقياس 287 المعدل (5:60نازلى). أكثر القياسات 
شيوعاً إذ عادة ما يتم تفسيرها بنسبة تباين المتغير التابع» الذي يُشرح بمزج التنبؤات 
في النموذج. وتوجد قياسات أكثر تعقيداً للتناسب في سياقات أخرى» ومجموعة 
كاملة من إحصاءات التناسبء بما فيها :4 (4 عدد أولى)» و«كابا» (8مم18))» ومعيار 
أكايكى للمعلومة (810). ومعيار بايز للمعلومة ©81). ومعيار المخاطرة فى 
البح (116)+ ومتار بابر الموعد للمعاوقة معان نت واتجمال جيل 
نسبة 2- ( 119000عء!ا.آ1.08-1 2-). ولكن الفكرة العامة التي نحن على وشك 
توضيحهاء تنطبق على هذه المقاييس كلها. 

وفي مقالات تستخدم الطرق التقليدية» تُنشر في مجلات بحث رائدة في العلوم 
الإنسانية» عادة ما توجد نماذج تنبؤية حيث نسبة التباين التي تم تفسيرها فيهاء جدا 
متواضعة؛ قد تصل مثلاً إلى /25 أو أقل من ذلك. ولكن هذا المستوى المنخفض من 
القوة التفسيرية» نادراً ما ينظر إليه على أنه ينال من مصداقية دراسة ماء أو يتم التعامل 
معه باعتباره اتّهاما لجودة النموذج. 
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ومن النادر أيضاً ما يركز كتاب مقالات بحثية في مجلات عديدة» على مقدار 
التباين في متغيرهم التابع الذي يتم تفسيره من قبل نموذجهم الخاص؛ بل من النادر 
جداًء وجود أي تفسير موضوعي حول التباين غير المفسر لنموذج ما. حدث استثناء 
واحد منذ عقود مضت عندما حاد كريستوفر جيتكس (5اءع0ع1 #عطمماواتط0) 
وزملاؤه عن العادة في كتابهم الرائد اللا مساواة (1/0/»/ن12) (1972). وفسروا 
التباين غير المفسر لنموذجهم الخاص للحركية الاجتماعية بتأثير «الحظ». وخلف 
ذلك الكثير من الانتقادات (1973 ,.21 أء مهمع 01 0). 


ونتج عن هذا الجدال - على ما يبدو - إجماعاً داخل النموذج الأصلي التقليدي 
يفيد بوجود اعتبار التباين غير المفسر (1/8:138266 181260م<6م[])» نابعا من مزيج 
خطأ مقياس (1:1501 3/162511161026116) وعوامل سببية محذوفة. وما دام انحدار ما أو 
نموذج آخر ذو دلالة إحصائية بشكل عام» وتوجد متنبئات فردية ذات دلالة إحصائية 
داخل النموذج.ء فإن الإعلان عن نموذج تظل فيه الغالبية العظمى من التباين غير 
مفسرة. يبقى مقبولا باعتباره طبيعيا ومناسبا لدى العديد من الباحثين» والمجلات 


الرئيسة في العلوم الاجتماعية والسلوكية. 


وفي المقابل» يركز التنقيب في البيانات - على نحو أقوى بكثير - على تعظيم 
القوة التنبؤية لنموذج ماء مما يعني تقليص مقدار التباين غير المفسر قدر الإمكان. 
وإن تفسير /25 من تباين المتغير التابع فقطء قد يعتبر أمرأ غير ملائم من قبل العديد 
من علماء التنقيب في البيانات. وكما سنأتي على ذلك لاحقأء سيستكشف عالم من 
علماء التنقيب في البيانات طرقاً مختلفة - وأحياناً يمزج العديد منها - وذلك تحديداً 
لتعظيم القوة التنبؤية العامة. ويقوم علماء التنقيب في البيانات بذلكء لأن التنبؤ 
الدقيق هو في الغالب غايتهم الرئيسة في النمذجة: بما أن القيم المتنبأ بهاء ستستخدم 
في حالات العالم الواقعي للإفصاح عن قرارات وإجراءات. 

وخلاصة القولء إن المنهجية الإحصائية التقليدية» تركز على المعاملات الفردية 
بالنسبة إلى المتنبئات» ولا تكترث كثيراً للقوة التنبؤية. ويعمل التنقيب في البيانات 
العكسء وهذا التباين فى الأهداف. يشكل النقطة الرئيسة الأولى الاين الحاضل ديه 
التنقيب في البيانات» الو الأصلي التقليدي. 
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يا ترىء ماذا يمكن أن يقول التنقيب فى البيانات والإحصاءات التقليدية لبعضهما 
بعضاً إذا كانت لديهما أهداف مختلفة؟ ولما كان تركيز التنقيب في البيانات يقع على 
القوة التنبؤية (20767 176م10ل:2)» تمكنت بذلك من تطوير بعض الأدوات 
التحليلية الجديدة القوية؛؟ ولكن ليس من الواضح دوماء مدى إمكانية اندماج نقاط 
قوة التنقيب في البيانات في التنبؤء ضمن إطار العلوم الإنسانية التقليدية التي تولي 
أولوية خاصة لتقييم فرضيات حول متنبئات خاصة. وتأثيراتها التقديرية. من المرجح 
- في رأينا - أن يحدث التنقيب في البيانات تغييرات كبرى في مجال البحث 
الاجتماعى والسلوكي. وفى الغاية الإحصائية في البحث الطبى الحيوي 
0200 وفي كثير بن اللعالانة تقدم أدوات التنقيب فق النانات» قدراً من 
القوة التفسيرية تفوق بكثير النماذج الإحصائية التقليدية التي من الأرجح» ينجذب 
الباحثين إلى استخدامها. ولكن تركيز العلماء الاجتماع» والسلوكيين» وباحثين 
آخرين على فهم آليات سببية (03ةوتطقطء»716 1[هو5ددة©).: والأهمية التي يولونها 
لتقديرات التأثيرات بالنسبة إلى المتنبئات الفردية (تقاس باعتبارها معايلات متغيرات 
محددة)» لا تختفي على الأرجح. وتظهر إحدى التسويات في تطوير بعض أدوات 
التنقيب في البيانات الجديدة التي توفر معلومات حول الآليات» إضافة إلى الانشغال 
القديم للتنقيب في البيانات. بتعظيم الدقة في التنبؤ (انظر مثلاّ 2000 ,1مهء5). 

اختبار الفرضية في المنهجية التقليدية 

لقد تمت داخل النموذج الأصلي الإحصائي التقليدي الذي هيمن على الطرق 
الكمية» والصلات (1.1218865) بين النظرية وتحليل البيانات من خلال اختبار 
فرضيات حول معاملات إحدى المتغيرات التابعة أو أكثر» في نموذج تنبؤي ما. على 
سبيل المثال» قد يركز باحث ما أو محلل بيانات على مسألة ماء إن كان معامل انحدار 
ماء بالنسبة إلى متنبئ محدد ومهم نظرياً له دلالة إحصائية؛ ففي مُخْرّج الانحدار تتم 
عملية نقل معامل كَل متنبئ إلى جانب إحصائية اختبار (اختبار - ت(6800-)))أو 
اختبار - ز (2-7856)» وقيمتها م (6اا78-م)» المترابطة» أو مستوى الدلالة 


(3) يشير الحرف اللاتيني م إلى الكلمة اللاتينية »»0500816١‏ ويعني القيمة الاحتمالية. وهو مصطلح يستعمل 
في مجال الإحصاء. أي أنه عبارة عن عدد يستعمل في تأويل أو تقييم المقاييس الإحصائية (المترجم). 
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(علاع.آ ع20و110مع518). والقيمة م المترابطة بكل متنبّى (2:010101). هى احتمال 
الحصول على قيمة اخصائية الاختبار التى تعد كبيرة مثل تلك التى رصدت» ومتوقفة 
على صدق الفرضية الصفرية أو (العدم)! (وتوعطهمنز11 اأدلة). 


ونادراً ما يتم اختبار فرضية ما - داخل المنهجية التقليدية - التي تفحص إمكانية 
أن يكون للتأثير المشترك لمتغيرات عديدة دلالة إحصائية. وأحياناًء يتم اختبار فرضية 
ماء لاستكشاف ما إن كان نموذج واحد عموماًء مختلفاً - بشكل كبير - عن نموذج 
بديل أو متفوقاً عليه. 

ونغيدا عن هذه التفاصيلء يقدم اختبار الدلالة (8صتاوع1 ععصده1 امع 51) داخل 
المنهجية التقليدية» طريقة من طرق الحكم على إمكانية أن تكون نتيجة ماء تمثيلية 
(ع16أهأمعوع رمع 1 ) : أي ما إن كانت القيمة التقديرية (15]6110216 40 ). المشتقة من 
عينة واحدة أو من مجموعة من الترصدات» ستكشف عن دقتها لدى تطبيقها على 
عدد أكبر من السكان الذين أخذت منهم العينة (587701). وعندما نجد لمعامل 
الانحدار «دلالة. إحصائياء نستنتج عدم إمكانية حدوث قيمة معينة - رصدناها في 
عينتنا - بمحض الصدفة عبر الخطأ العينى»””) (81801 ع مذامدة5). يعد اختبار 
الدلالة. إذن» طريقة تمن طرق تقنيم إشكائية أن تتطبق نتييجة ما في عينةشتخصض هاه 
على العدد الأكبر من السكان التي أخذت منها العينة. 

ومع ذلك. أثار العديد من علماء الإحصاء انتقادات خطيرة بشأن الممارسات 
المتفق عليها بشكل عام في العلوم الاجتماعية والسلوكية» وفي البحث الطبي بما فيه 
اختبار الدلالة الذي أصبح يعرف ب «اختبار الدلالة الجدلي» 56ع1 ععصهء6 تمع ذ5) 
(لإقطء1507ت0©) (1970 اأععلمع1] سه ده24035). يرى هؤلاء النقاد أن العديد من 
الباحثين» يسيئون استخدام اختبارات الدلالة على نحو يقوض صلاحية النتائج 
الواردة في تقريرهم. وسنلخص بعض انتقاداتهم» ثم نبين أن التنقيب في البيانات 
دائما ما يتبنى منهجية بديلة لتقييم النتائج منهجية لا تعتمد اعتمادا كبيرا على اختبار 
(4) تترجم عبارة «5ذ5ءط:00ز11 11دالا» في عالم المال ب «فرض باطل»» وفي مجال الطب ب «فرضية 
البطلان». 
(5) تترجم العبارة أيضاً ب «خطأ المعاينة» (المترجم). 
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الطويل الأمد. لاختبار الدلالة. 


وتؤكد إحدى الانتقادات أن قرار تجاهل متنبأ ما ذي قيمة م (دلالة) 051.. 
واعتبار متنبأذي قيمة م094. ذي دلالة» مضلل. وتفيد إحدى مضامين ذلك» بضرورة 
تركيز النتيجة أو حجم التأثير (51265 817506) - حجم المعامل أو التأثير - على 
الجانب التحليلى أو التأويلى» بدلا من التركيز فقط على ما إذا كان معامل المتنبأ مهما 
أو غير عير نايا (2000 صمسععل 00116 . 

أما المأخذ الثاني على سوء استخدام اختبار الدلالة» فيتجلى في كون القيمة 
الحرجة المستخدمة بشكل مشترك من قبل باحثين» للبت فى إمكانية دلالة معامل ما 
إحصائيا» صغيرة ل في سياقات عديدة» ويؤدي إلى انتشار أخطاء من نوع 1[ عم15) 
(11015 1 (النتائج إيجابية كاذبة (205111765 1'8156)). ويشمل هذا الجدال الدائر» 
مخاطر التعدد (1101190م31010) عندما يضم الانحدار أو نماذج أخرى, العديد من 
المتنبئات /إعك1نا1 :1995 نع قطء5 :1990 5251116 :1996 جاو]ط ,2010 تمتصطة زمء8) 
(1991. وفي نماذج تضم العديد من المتنبئات» يرى النقاد عدم ملاءمة استخدام 
القيمة الحرجة التقليدية (06ا[8/' 010121 10081ه00876) (قيمة '1 أو 1.96 -7) 
لتقييم الدلالة الإحصائية لكل متنبئ. بما أن تلك القيمة الحرجة التقليدية تنطبق 
بشكل مناسب على مقارنة واحدة» وليس على متتبئات متعددة» كل بحسب اختباره 
الدلالى (1977 18/1211 لصة عرعاء1.2:2). ويزداد احتمال وجود نتيجة ذات دلالة 
إخضائية بالد خوك إلى المتتينات في أي تموذجء لآن واجدة من هله 'المسنييات - 
ببساطة - تكرر اختبار الدلالة العديد من المرات. وسيكون لمتنبئ واحد من أصل 
عشرينء دلالة عند 0.05 > م عبر الحظ (احتمال) فقط. ويدور هذا الجدال أيضاً 
حول إمكانية أن تكون الاختبارات بالنسبة إلى المتنبئات المختلفة في نموذج ماء 

ويمكن تجنب مشكل التعدد أو عملية اختبار العديد من التأثيرات أو المعاميلات 
في نموذج واحد. من خلال تعديل القيمة الحرجة المستعملة للبت في المتنبئات 
ذات الدلالة إحصائياً للأخذ بعين الاعتبار عدد المقارنات المتعددة. ويتجلى أحد 
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الحلول المتحفظة (16أ8/كاءع0025©) احماتاء في استخدام تصحيح بونفيروني 
(105]عع001) أنامنترء8021) للمقارنات المتعددة. وإذا كانت هناك خمسة متنبئات 
- مثلاآً - عوض القبول بأي متنبئ كان» بحيث تكون 8>.05 قيمة احتمالية ذات 
دلالية» فإن المرء يقبل فقط متنبعاً من المتنبئات» بحيث تكون 01.>م (أي قسمة 
القيمة التقليدية ل 0.05 على عدد المتنبئات). وهذا يعادل استخدام قيمة حرجة 
(2.58, عوض 1.96 بالنسبة إلى نموذج انحدار يضم خمسة متنبئات» أو قيمة 3.48 
بالنسبة إلى نموذج ماء ذي ماثة متنبئ). 


وما تعديل بونفيروني 0ع تاكن زلخ تممنتع 1صم8) إلا تصحيح تعدد ممكن» 
يمكن تطبيقه على اختبارات الدلالة التي تنقلها البرمجيات الإحصائية العادية. وتضم 
أكثر المنهجيات تطورا للتعدد. حساب معد لات اكتشاف كاذية /جاء/1م215 13156) 
(13165 ومعدلاات الخطأحسب العائلة (5ع15216 11101 1/15ا -/(11مطة"1) تلمتصة رمع 8 ) 
(2010 .وإذا كانت المجلات البحثية تشترط هذه التعديلات بالنسبة إلى هذه النماذج 
التنبؤية التي تضم هذه المتنبئات المتعددة» فإن ورود النوع الأول من الخطأ 1 عم10) 
(813055 (الإيجابي الكاذب) (2051010765 108156)» سيتقلص بشكل كبير. ومع ذلك» 
تستمر المجلات البحثية البارزة في قبول استخدام قيمة حرجة ل 1.96. في نماذج 
ذات متنبئات متعددة» مما يؤدي إلى تعريات حول عدم قابلية استنساخ البحوث 
(2005 103021015). على الرغم من عقود من الانتقادات في هذه الاتجاهات. 

وتتفاقم هذه القضية المترابطة باختبار الدلالة في سياق المتنبئات المتعددة عندما 
يبحث بعض الدارسين بشكل فعال عن تأثيرات ذات دلالة إحصائياء من خلال تحليل 
متنبئات عديدة إلى أن يعثروا على نتيجة ذات قيمة 1 أو 2 ل1.96 أو أكبر» ثم يضمونها 
في نموذج نهائي» ومقرر باعتبارها قيمة ذات دلالة. وتعد قيمة حرجة ما ل 1.96 
بالنسبة إلى اختبار الدلالة مضللة جداء إذا ما تم تقييم مئات المتنبئات أولاء قبل نقل 
فقط تلك التي أثبتت أن لها دلالة إحصائيا. 


وزادت حدّة هذه المشاكل أكثر فى البحث الطبى وفى تحليلات سلسلات 
جينية» بحيث أصبح خضوع آلاف اختبارات الدلالة للتجربة» أمراً شائعاً بشكل متزايد 
قبل نقل أهمها (2010 ,أهندوزمء8). وتحذر الكتب المدرسية التى تتناول الطرق 
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(711005): من البحث في المتنبئات الدلالية التي تعرف على نحو غير رسمي باسم 
«التنقيب» (128ط515) (التي تحمل معنى البحث والتنقيب»» أو «تجريف البيانات» 
(17:608128 1(818). كما توصي الكتب المدرسية» الباحثين بطرح فرضياتهم مقدما 
قبل تحليل البيانات بغية تجنب إغراء المضى فى البحث بعد المعلومة (1"800) عبر 
المتنبئات العديدة الممكنة. ولسوء الفقل يها يال العديد من الباحثين «ينقبون») عن 
النتائج ذات الدلالة» مستخدمين قيمة حرجة منخفضة (1.96:1 أو 0.5 > 7) بالنسبة 
إلى الدلالة الإحصائية. 


وكما أشرنا إلى ذلك سلفاًء ثمة حلول ناجعة للتعامل مع التعدد داخل النموذج 
الأصلي التقليدي؛ ولكن معظم طرق التنقيب في البيانات - كما سنفصل القول في 
ذلك لاحقاً - تتبنى منهجية مختلفة لتقييم تمثيلية نموذج ما (مستخدمين شكلاً من 
أشكال المضاعفة (1109]408م126)). المعروفة بالصلاحية المتبادلة -62055) 
( 101102610 تتحاشى مشكلة التعدد برمته» ولايقوم على اختبار الدلالة. وتلكم هي 
النقطة الثانية الرئيسة الت يختلف فيها التنقيب فى البيانات مع النموذح الأ 
لنقطة لَشاني 7 : يختلف 7 لتنقيب في لبيا - 6 ل بي 
التقليدي. 

عدم تجانس التباين باعتباره تهديداً للصلاحية في النمذجة التقليدية 

بعيداً عن مسألة التعدد, تتأثر أيضاً دقة الافتراضات الدلالية في النموذج الأصلي 
التقليدي ببعض الافتراضات النظرية الإحصائية التي تشكل الأساس لنماذج انحدار 
متعددة» وأقربائها الإحصائية (1993 86153). سنوضح بعضاً منها بهدف وضع 

يقوم نموذج ما - لكل حالة أو رصد على حدة؛ في مجموعة بيانات - بتقدير 
قيمة متنبأة للهدف (متغير تابع). وإذا ما طرحنا هذه القيمة المتتبّأة من القيمة 
المرصودة» فسنحصل على عدد يعرف بالقيمة المتبقية (8685101081)» التي تمثل خطأ 
التنبؤ (181501 8:60101102) بالنسبة إلى كَ رصد فردي. فالقيمة المتبقية إذن» نوع 
خاص من متغير من المتغيرات. وتلخيصاً للقيم المتبقية (أو الأخطاء) عبر كُل 
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إن مجموعة من الافتراضات الكامنة وراء المنطق الإحصائي للانحدار المتعدد 
والطرق المتصلة به» تفيد بضرورة توزيع القيم المتبقية بشكل عادي, ذات تباين 
ثابت» ومتوسط قيمة الصفر (2650 01 21635 4 ). واستقلالية عن بعضها بعضا. 
وعندما تكون هذه الافتراضات دقيقة. يقال عن الأخطاء إنها هوموسيداستيك 
(عتأقمه0ء056جمه1]0). وهي مصطلح يوناني يعني «ذات تباينات متساوية» أو متماثلة 
التفاوت. 


وعندما تكون هذه الافتراضات غير دقيقة» يقال إنها هيتروسيداستيك 

(عتأكهلء»505عاء11). أىْ ذات تباينات غير متساوية. ويحدث عدم تجانس التباين 
(02516117ع11616050) في الغالب» عندما تكون القيم المتبقية أو أخطاء التنبؤ أكثر 
انتشاراً (ذات تباين أعلى) بقيم منخفضة أو عالية لمتنبأ معين (أو 6) من أخرى بقيم 
معتدلة لذلك المتنبأ 6ا؛ أو أحياناً تكون القيم المتبقية أكثر انتشاراً بقيم منخفضة أو 
عالية (للمتغير التابع) لا من غيرها بقيم معتدلة للمتغير التابع لا. ومؤدى ذلك؛ أن 
النموذج التنبؤي دقيق (وله قيم متبقية صغيرة) عبر مجموعة معينة من قيم 6 أو لا 
ويأخذ في التراجع (أي يصبح أقل دقة) في مكان آخرء ليبلغ في الغالب» قيمأ قصوى 
من قيم »ا و/ أو لا. 

ثمة اختبارات إحصائية لتحديد إمكانية أن تكون الأخطاءء. ذات تباينات غير 
متساوية» ولكن غالباً ما سيرسم الباحثون. القيم المتبقية مقابل كل متغير 36 و/ أو كل 
متغير لا. وضمن هذه الرسومات البيانية» يأخذ عدم تجانس التباين شكل القمع؛ 
بحيث يزداد التباين في الأخطاء على مستوى الجزء الكبير من القمع. 

ولماذا نخوض بشكل عميق جداً» فيما قد يبدو تفصيلاً تقنياً؟ أولاً: يعد عدم 
تجانس التباين مشكلآء يظهر في تحليلات كمية عديدة. ثانياً: يخلف عدم تجانس 
الساين عواقت وخيمة ضيب ف التحزاك الت - فى نظرنا - تفوضن دقة يعن 
البحوث. ثالثا: يقدم التنقيب في البيانات عددا من السبل لمعالجة مشكل عدم تجانس 
التباين» أو التحايل عليه في بعض الأحيان. 

ثمة أسباب متعددة تؤدي إلى حدوث عدم تجانس التباين» فتجعل منه مشكلة 
واسعة الانتشار. 
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© عندما تكون وحدات التحليل فى مجموعة بيانات» تجمعات أو تراكمات 
(2165ع8ع1ع88 2 ) ذات أحجام مختلفة (مثاد احتواء مدارس على أعداد مختلفة من 
الطلبة)» وتكون متغيرات كُلَ وحدة على حدة (مثلاً)» متوسط درجات اختبار التقييم 
المدرسي (541) لدى الطلابء يظهر في الغالب» عدم تجانس التباين» لأنه ستكون 
أخطاء أكثر في القياس بالنسبة إلى المدارس الصغيرة» حيث متوسط درجات اختبار 
التقييم المدرسي يقوم على عدد أكبر من الطلاب. 

« ويحدث عدم تجانس التباين أيضاء عندما تضم مجموعة بيانات ساكنات 
فرعية» التي تظهر علاقات مختلفة بي نو [. .يكون تحليل ماء وهو يتنبأ بتأثير أخذ 
دروس التقوية داخل الكلية في ترك الدراسة. ذا تباين غير متساوء وينتج معامميلات 
مضللة إذا ما ضمت العينة - مثلاً - طلبة المرحلة الجامعية من المجتمع» ومن 
الكليات ذات الزمن الممتد لأربع سنوات على حدّ سواء. وحدث أن كان لأخذ 
دروس التقوية في الكلية تأثير مختلف جدا في ترك الدراسة بالنسبة إلى طلبة كلية 
المجتمع زع اامة 17 تمزه 0))» عن ظة الكلية ذات التكوين الممتد لأربع 
سئوات. 

» كما يمكن أيضأ حدوث عدم تجانس التباين عندما تقاس المتنبئات بشكل 
غير مناسبء مثلاً عندما يستخدم الدخل عوض سجل الدخل متنبّا (107ء1لعم2). 

© وأخيراء يحدث عدم تجانس التباين عندما تكون علاقة ما اضرورية» ولكن 
غير كافية». على سبيل المثال قد ترتفع نفقات إجازة السفر بارتفاع دخل الأسرة, بما 
أن المرء يحتاج إلى دخل كافٍ لتحمل تكاليف السفر. ولكن لا يستلزم ذلك ارتباط 
الدخل المرتفع بكثرة نسبة الأسفار. وبناء على ذلكء عندما يتم تنبؤ نفقات السفر 
انطلاقاً من دخل العائلة» يحدث قدر كبير من أخطاء التنبؤ (80:25 صمناعتلعط) (أي 
القيمة المتبقية) على مستوى الدخل المرتفع أكثر مما يحدث على مستوى الدخل 
المنخفض. وسيظهر ذلك باعتباره علاقة إيجابية ما بين الدخل والفترة المتبقية 
رصنع ادسلاوع ظ]1). 

إن عدم تجانس التباين منتشر في كُلَ أنواع البيانات» وله عواقب وخيمة على 

النماذج التقليدية؛ ففي حالة انحدار المربعات الصغرى العادية أكهع.آ 827م[010) 
(دهزؤوعمعء 503:65. لا ينحاز عدم تجانس التباين في تقديرات معاملات 
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الانحدار أو المتنّتات». ولكنه ينحاز فى تقديراته للأخطاء المعيارية بالنسبة إلى تلك 
المتنبئات» ومن ثمء يقدر ا الدلالة ير مهار يتم نقله إلى تلك 
المعاملات من معاملات الانحدار (015غ001]1216) 150ووع1287). وهذا ما قد ينتج 
خطأ من نوع 1 مما يؤدي بالباحثين إلى استخلاص خاطئ مفاده أن لمعامل متنبئ ماء 
دلالة إحصائية» في وقت تنعدم فيه هذه الدلالة أصلاً - أو تنتج تحيزات متزايدة 
لأخطاء معيارية» تفضي إلى خطأ من نوع 11 أي تؤدي بالباحثين إلى الاعتقاد في أن 
بعض المعاملات ليست لها دلالة» في وقت تتحقق فيه هذه الدلالة. والمشكلتان 
كلاهما تشكلان تهديداً للنمذجة التقليدية. 


وفى حالة الانحدار اللوجيستى» والاحتمالية اتطمعط) والتقنيات ذات الصلة. 
التي تتنبأ بالمتغيرات الثنائية أو القطعية» يكون لعدم تجانس التباين نتائج أكثر سوءء ذلك 
بأنه يتحيز لمعاملات الانحدار» وكذا أخطائها المعيارية (2010 رقدة!!178/11 .2). 


ولا يتفق كُلَ الباحثين مع حجّتنا التي تفيد بأن عدم تجانس التباين يخلق مشكلاً 
خطيرا للنماذج التقليدية؛ فالمختصون في علم الاقتصادالقياسي (7161305ا18:60001) 
- مثا - طوروا مقدرين (15]1518]055) خاصين للأخطاء المعيارية» تعرف بمقدري 
الشطائر (26015تصناوظ طءةتلصة5). أو مقدري هابير - وايت عألط/11-ءطن11) 
(2]015مطناوظ. والأخطاء المعيارية القوية (8015 50د0صها5 )دناط10). التي يقال 
عنها إنها تقلص من الانحيازات الناجمة عن عدم تجانس التباين. ولكن يشكك 
علماء إحصاء آخرين» في مصداقية هذه التدابير التصحيحية (2006 ,288تلء16), 
لكونها لا تشكل حلاً سريعاً. 

إن التنقيب في البيانات يقدم أدوات متعددة لتحديد و/ أو معالجة عدم التجانس 
(1عمعع11»]650) الذي يعزى حدوثه نيا إلى قيامن متنا ما قياساً هزيلاً أو إلى 
علاقته غير الخطية بالمتغير التابع. وسنعرض في قسم لاحقء لأدوات التنقيب في 
البيانات المعروفة باسم توزيع الخانات (8منصمز8) أو تفريد أنتروبي لم منتخصط) 
(122100اء01501آ1» التي تسمح للمحللين بتحديد التأثيرات اللا خطية؛ وإذاماتم تقدير 
هذه الأدوات بشكل صحيح في نموذج ماء فإن مصدر عدم تجانس التباين قد يزول. 
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يعد عدم تجانس التباين أحياناًء نتيجة لتفاعلات إحصائية مهمة» اسشبعدت من 
نموذج ما. وتقدم أدوات التنقيب في البيانات بما في ذلك تقسيم البيانات 102]8) 
(عصنصه6 هم أو أشجار القرار (15665 106015102) لصقل مجموعة بيانات 
للتفاعلات» وتحديد التفاعلات الأكثر أهمية. وإذا ما حدد المحللون تلك التفاعللات 
ونمذجوهاء فإن عدم تجانس التباين سيتقلص. وعلى نحو مشابه. يوفر التنقيب في 
البيانات طرقاً من أجل تحديد مجموعات فرعية فى مجموعة بيانات ماء ذات علاقات 
مختلفة بين المتنبئات والمتغير التابع. جلمد فكزين مجموعات فرعية مميزة» 
داخل مجموعة بيانات من خلال استخدام التنقيب في البيانات» يكون بإمكان 
الباحثين البتَ في إضافة إجراء تحاليل منفصلة لكُلُ مجموعة فرعية على حدة 
(2013 ممه0طاء5 اه 861561 ,316135260). وفى كلا الحالتين» لايد من أن يقلص 
هذا عدم تجانس التباين. ْ 


ولكن في حالات أخرىء يرى محللون أن فترة خطأ (185770116510) نموذجهم هي 
فترة خطأ ذات تباينات غير متساوية. ومع ذلك» عجزواعن تحديد أسباب مشكلهم؛ على 
الرغم من جهودهم المثلى. وفي هذه الحالة - كما سنشرح ذلك في قسم لاحق - يملك 
التنقيب في البيانات «حيلة» لتعبير نماذج لم تُعيّر في البداية بسبب عدم تجانس التباين. ولا 
تحدد هذه الحيلة أسباب المشكلة في المقام الأول» ولكن يمكن أن تقدم حلا ناجعاً لإزالة 
تل كالمشكلة. 

وأخيرا تعد العديد من طرق التنقيب فى البيانات» لا معلمية (38106]66ةم1100): 
ذلك بأنها لا تستلزم أنواع الافتراضات الإحصائية حول توزيع فترات الخطأ التي تقوم على 
مجموعة من الطرق التقليدية المنمذجة. وبينما تعجز طرق التنقيب فى البيانات - فى هذه 
الحالات - عن منع حدوث عدم تجانس التباين في البيانات؛ تستطيع مع كل هذاء التحايل 
على بعض آثارها المدمرة أو الصعبة. 

تحدى العينات المعقدة وغير العشوائية 

في النموذج الأصلي التقليديء عادة ما تقاس الاختبارات الدلالية الإحصائية لكل 
متنبّئ في نموذج انحدار ماء برزم إحصائية من خلال | ستخدام صيغ تفترض فكرة تشكيا 
البيانات. عينة عشوائية بسيطة (16م53127 16920010 16م51102)» مستمدة من سكان أكبر» 
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وأخباناء يكوك ذلك «الافتراضن غير مبرن. وتشمل العديد .من الدراسات الاستعصائية 
مخططات أخذ العينات/) متعددة المراحل 


أولاً: أخذ العينات العكتوائية بين وعدات ذات سعوى اعلى مكل المدن أو الرموز 
البريدية (0065© م723)» وبعدها أخذ عينات على مستوى الأفرادداخل كُلٌ وحدة من تلك 
الوحدات ذات مستوى أعلى. وتعد الأخطاء المعيارية بالنسبة إلى العينات متعددة 
المراحل» أكبر بكثير من الأخطاء المعيارية بالنسبة إلى العينات العشوائية البسيطة مع وجود 
عدد الترصدات أو الحالات (/7) نفسها. وإناستخدام العينات العشوائية البسيطة (5105) 
في ردت قر جه دعر إن لخدام التو اللكترقوك مبرار - لا تظهر الحقيقة الكاملة 
للخطأ المعياري لكل متنبئ على حدة. وبذلك تبرز نتائج إيجابية كاذبة (300 1150185 
1 عاعع11). 


ويمكن استعمال مقاربات متعددةداخل البحث التقليدي لتكييف الأخطاء المعيارية 
بالنسبة إلى التصاميم المعقدة للعينة. وتُعرف معاملات التصحيح الأولى باسم (121381). 
أي (تأثيرات التصميم)؛ كما تستخدم البرمجيات الأكثر حداثة» خطية تايلور 102ن18 
0 لتقدير الأخطاء المعيارية المصححة؛ وهذه علاجات فعالة على الر غم 
من عدم استخدامها من قبل كُلَ الباحثين. 

ومع ذلك» يصبح اختبار الدلالة إشكالية أكثر» عندما يريد الباحثون تحليل بيانات 
ليست عينات عشوائية مستخلصة بشكل منتنظم. ويصادف دارسون - بشكل متزايد - 
مجموعة بيانات مأخوذة من سجلات تنظيمية» أو مشتقة من معلومة مأخوذة من الشبكة 
العنكبوتية (ج/1ا 1126). أو من مصادر أخرى كبيرة. وليست هذه المجموعة من البيانات 
مستمدةعشوائياً من الساكنين معروفة» على الرغم من احتمال أن تكون كبيرة جداً. والعبارة 
التقنية التي يمكن إطلاقها على هذا النوع من مجموعة البيانات 108]8560): هي العينة 
المقبولة أوالمريحة (©1م005:60162065812). أما بالنسبة إلى هذا النوع من العينات. فإن 
الاختبارات التقليدية للدلالة الإحصائية التي تفترض أن الباحث يحلل عينة عشوائية بسيطة 
مستمدة من ساكنين ماء هي اختيارات غير ملائمة تماماً. 
(6) سنستخدم عبارة «أخحذ العينات»» ومصطلح «المعاينة» بالتبادل لترجمة الكلمة الإنجليزية (قهنامسية5)» 
دون أن يترتب عن ذلك تغيير في المعنى. 
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اختبارات تمهيدية وتبادلية 

إِنّ للتتقيب في البيانات إجراءات متعددة» يمكنها تجنب مزالق مترابطة باختبار 
الدلالة في النموذج الأصلي التقليدي. وتشمل أحد حلول التنقيب في البيانات اختبار 
دقة الاستدلالات عبر المضاعفة والصلاحية التبادلية. وسنفصل القول في تلك 
الأفكار في قسم لاحق. ولكن يطبق حالياً - على نحو واسع - حلاً ثانيا» يعرف ب 
العملية التمهيدية (128م80015530) على الاختبارات الدلالية» والنماذج الإحصائية 
التقليدية» وكذا داخل التنقيب في البيانات نفسهاء وهي التقنية التي سنناقشها ابتداء 


(1993 1هلانامآ له تإعه810) . 
5 من 
3 ان في الداخل 


9005 من مجمو 8 ا 905 من بجموع 

متوسط العينة؛ متوسط العيئة» 

بف قِ هذا نبأ يفع 5 هذا «الذيل! 
م 





الشكل رقم 1.2: توزيغ متوسط العينة. 

وتستخدم المقاربة التقليدية لاختبار الدلالة (التي تسبق العملية التمهيدية) 
توزيع المعاينة (6100ناط1نا1(15 عمذام ج53 ). بغية تقدير الخطأ المعياري» ثم الدلالة 
الإحصائية أو قيمة - 0 لتقدير ما. إن توزيع المعاينة هي توزيع تم الحصول عليه نظريا 
(ممثلاً في شكل صيغة رياضية أو في شكل رسم بياني على نحو مرئي» كما هو مبين 
في الشكل رقم 1.2)) الذي يصف كيفية علاقة التقديرات المستخلصة من عينات 
عشوائية مأخوذة من ساكنين ماء بالقيمة الحقيقية لذاك المعلم في الساكن. 

لقد تم وضع افتراض (يسمى أيضاً افتراضاً معلمياً) من الافتراضات حول 
صلاحية توزيع معاينة نظرية» لدى استعمالها في تحليل معين بغية الحصول على 
فترات الثقة أو قيم- لكل انحدار خاص أو نموذج آخر. ولسوء الحظء إذا ما تم 
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الإخلال بذلك الافتراض؛ فستكون الاستدلالات التي تم بلوغها حول الدلالة 
الإحصائية» خاطئة. 


وتتجلى إحدى الطرق التي تلف هذه الصعوبة» في استخدام تقنية لا معلمية 
تعرف باسم العملية التمهيدية» إذ تستعول استراتيجية تجريبية لتحديد الأخطاء 
المعيارية» والحصول على الدلالة الإحصائية أو قيم-م بالنسبة إلى مجموعة بيانات 
معينة أو تحليل تم إجراؤه؛ بدلاً من وضع افتراض حول شكل توزيع المعاينة. 

إن العملية التمهيدية فى شكلها المبسّط جدأء تُستعمل العيئة الوحيدة أو المنفردة 
لبيانات يحللها باحث ماء كما لو أنها تمثل السكّان برمتهم. وتستمد عملية التمهيده 
عينات فرعية عشوائية عديدة من هذه العينة الوحيدة. وقبل استخلاصها الترصد 
الأول وضمه في عينة فرعية» تعيد استبدال تلك الحالة في العينة» ثم تختار عشوائياً 
لويد ارا مستبدلة تلك داخل التجمع (7001 156)» وتتكرر العملية إلى أن تنتج 
عينة ممهدة (5212016 800150185) مساوية من حيث العينة الأصلية» وهذا ما يعرف 
بالمعاينة باستبدال (726216ع120مع1 115 1128مدمة5). وتتكرر هذه العملية لبناء - 
على ما يبدو - آلاف العينات الممهّدة. 

ولكل عينة من هذه العينات الممهّدة العديدة» تُقدّر - إذن - برمجيات إحصائية» 
ذات أهمية قد تكون متوسط عينة ماء أو معامل انحدار بالنسبة إلى متنبئ ما خاص 
ضمن نموذج معين. وستكون النتيجة» آلاف التقديرات المختلفة لتلك الإحصائية. 
ومن أصل ألف تقدير ممهد من هذه التقديرات» يتم بناء توزيع ماء يستخدم في تحديد 
الدلالة الإحصائية لأي إحصائية من العينة الأصلية (العينة اللا ممهدة) 72100) 
(60م800151182: بحيث يقيس واحد منها عدد التقديرات من أصل الآللاف منها التى 
تقع داخل مسافات متنوعة من مركز التوزيع» ويّحْسُب قيم -م المترابطة بتلك 
المسافات. 

ولا تضع عملية التمهيد (أو تقنية من التقنيات ذات الصلة المسماة بالمطواة”) 
(©1نهعاء1301) أي افتراضات حول شكل توزيع المعاينة. وكلاهما اجراءان تجريبيان 
محضان. يستعملان في قوة حوسبة قاسية (2801961 108 أنامتده00) عأمد8). مُكَرّرِين 


(7) أخذ هذا الاسم من «الخنجر السويسري»» لامكانية استعماله في أشياء متعددة بشكل مفيد جداً 
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الخذارا كاملا ا واتتدليلا الحراءريما القنيهرة: وتعيدة لذالك: باعل عماءة التمهيه ونا 
إجرائياً معتبرء ولو على الحواسيب السريعة. 

ومع ذلك؛ يستخدم علماء التنقيب في البيانات أحياناً منهجية قوة قاسية عان8) 
(©7801 أخرى لاختبار الدلالة - المعروفة باسم اختبار المبادلة 00 ةانتصحءط) 
(1650 أو اختبار دقيق (1650 8806)- فى سياقات تستحيل فيها الدلالة التقليدية. 
لنعتبر أن نموذجك التنبؤي يتألف من خمسة متنبئات» ومتغير تابع واحد. لا. وكل 
خانة فى جدول ممتد أو مصفوفة بيانات» تمثل إحدى متغيرات المتنبأ أو المتغير 
التابع. (تمثل السطوره والناس أو الحالات). إن برمجيات اختبار المبادلة» تخلط 
القيم داخل خانة ما. على سبيل المثالء إن القيم الموجودة داخل الخانة من أجل لا 
- المتغير التابع أو المستهدف - قد تبدَّل عشوائياً بقيم أخرى موجودة سلفاً في تلك 
الخانة» وتنتمي إلى حالات أو ترصدات أخرى. وهذا الخلط أو التبديل يخلط - عن 
قصد - قيم لا عبر الترصدات. 

إن الإبدال (الخلط) يدمر أي بنية (أو علاقات) كانت موجودة سلفاً بين متنبئات 
ا ولآ الميدلة عتالياً: على نيل المال قبل الايذال قد يكون هناك ارتباط إمجابى بين 
ا ولا: الأفراد الذين كانت لهم قيمة عالية على 1 قد تكون لهم أيضاً قيمة عالية على 
لا وفي الغالبء إن أولئك الذين كانت لهم قيما منخفضة على 26 لهم قيما منخفضة 
على لا. ولكن من خلال القيام بخلط قيم داخل خانة لا» سيكون فرد ما ذو قيمة ما 
على 6 مرتبطاً حالياً بقيمة شخص آخر على لا. لقد تمت إزالة البنية السابقة للارتباط 
(01112100©)» واستبدالها بالعشوائية. ولكن لاحظ أن القيمة المتوسطة للمتغير لآ 
والانحراف المعياري ل لا سيتم الاحتفاظ بهما. 

ومن ثم» يشغّل برنامج إحصائي ماء النموذج التنبؤي نفسه الذي شغْله سابقاً 
بالنسبة إلى البيانات الأصلية الحقيقية» وحالياً بالنسبة إلى هذه البيانات المجمّعة أو 
الممزوجة. وسيمنح ذلك مقياس تناسب - 182 مثا - بالنسبة إلى مجموعة البيانات 
الممزوجة والمجمّعة. (كما يمكن التركيز على إحصائية أخرى, مثل التركيز على 
معامل ما لمتنبئع خاص. ويبقى المنطق نفسه ساري التطبيق). 

وتتكرر هذه العملية من خلط نموذج ما وحسابه بعد ذلك. العديد من المرات» 
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قد تصل إلى ألف مرة. ومن ثمء فإن للباحث حالياً قيمة 87 للبيانات الصحيحة 
والحقيقية» وكذا لألف قيمة أخرى من القيمة الإحصائية 87 . بواقع واحدة لكل من 
العينات ذات بيانات عشوائية أو ممزوجة. ويأخذ ذلك وقتا حاسوبيا كثيرا بشكل 
واضح. ويمكن لباحث ما أداء هذا الإجراء في نهاية مشروع تحليل ماء فقط عندما 
يكون واثقا جدا بالنموذج النهائي» ويريد مستوى دلالي لذلك النموذج. 

وبعد ذلكء» يقارن الباحث قيمة 27 (أو إحصائية أخرى ذات أهمية) في الليودج 
ذي البيانات الحقيقية بالقيم الموجودة في النموذج المختلط . لتتصور أولاً إمكانية أن 
يكون 7 بالنسبة إلى النموذج الحقيقي, أكبر من القيم بالنسبة إلى ألف نموذج ممزوج 
برمته. وبعدئل» يمكن لنا استنتاج أن احتمال الحصول على 77 عَرَضاً هو أقل من 
واحد في الألف (0.001> م). على اعتبار أننا فحصنا 1000 عينة» ولا تملك أي عينة 
57 بهذا الحجم. إن ألف نموذج من نماذجنا التي تحتوي على بيانات ممزوجة» 
تجسيد واقعي للحظ: إذ من خلال تجميع البيانات» نكون قد قسنا فقط عدد المرات 
التي حدث فيها حجم معين ل 17 «بمحض الصدفة». 

وبعدهاء تصور أن من ب بين ألف نموذج عشوائي (مختلط)؛ عشرة نماذج لها 17 
مساوية (أو أكبر من) 17 بالنسبة إلى النموذج ذي البيانات الحقيقية. ثم إن احتمال 
الحصول - صدفة - على 82 التي تم إيجادها بالنسبة إلى النموذج الحقيقي» هو 
0 أي إن 0.01 -م. في المقابل» إذا أفضت عملية الخلط إلى 500 من أصل 
0 عملية بحيث يكون لها 17 مساو أو أكبر من 17» المحصل عليها بالنسبة إلى 
عينة البيانات الحقيقية (غير المختلطة) (8100-51111160). فإن الدلالة الإحصائية 
بالنسبة إلى بيانات حقيقية لشخص ماء هي 0,5 وسيكون من السهل وقوع النموذج 
الحقيقي الذي لا دلالة له إحصائيا عند مستوى 0.05. فقط بمحض الصدفة. 

ويعد هذا الإجراء التبادلي» نوع من اختبار دقيق (]165 8806): لا يفترض 
افتراضات حول شكل توزيع 87 » أو أي إحصائية أخرى خضعت للفحص. كما يعد 
هذا الإجراء أيضاً شكلاً من أشكال محاكاة مونتي كارلو 2210© 3/0016) 


.51101113100( 


33 


ولتخليص هذا القسم حول اختبار الفرضياتء نزعم أن النقاط الرئيسة الواجب 
تذكرها هو أنْ اختبار الدلالة» يقوم بدور حاسم في المنهجية الإحصائية التقليدية: 
حيث تستعمل للبت في المعاملات أو التأثيرات التي من المرجح أن تختلف عن 
الصفر في مجموع السككّان الكبير الذي أخذت منها العينة. ومع ذلك» اشتكى النقاد 
من أن ممارسات الباحثين اليومية في النمذجة التقليدية» غالباً ما تسيء استخدام 
اختبار الدلالة» مخلفة أخطاء معيارية صغيرة بشكل غير سليم» ونتائج إيجابية كاذبة 
عدف إن أكثر مشاكل اختبار الدلالة خطورة». تحدث عندما يضيف واضعو النماذج 
متنبئات عديدة إلى النماذج خصوصاً لدى بحثهم في مئات المتنبئات قبل بتّهم في 
المتنبئ الذي يَضَمّ في نموذج ما. 

وفى ردّ فعل على هذه الأخطاء» قال بعض المختصين فى التنقيب فى البيانات» 
وبعض المتنبئين» بالتخلى عن اختبار الدلالة جملةً وتفصيلاً (2007 008 أمظ ) . 
إن معظم المختصين في التنقيب في البيانات» ليسوا بتلك الشدة» ولم يرفض معظمهم 
اختبار الدلالة برمته؛؟ وإنما ركزوا بشكل أكبر على المضاعفة والصلاحية المتبادلة 
باعتبارهما بديلين عن اختبار الدلالة عند تقييم نموذج تنبؤي. 

علاوة على ذلك» إن حدود منح تطبيقات التنقيب في البيانات» اختبارات 
الدلالة للمتنبئين الفرديين» فهي تستخدم - على الأرجح - اختبارات الدلالة التي 
تقوم سواء على عملية التمهيد. أو على اختبارات المبادلة» مما يسمح بتجنب العديد 
من المزالق المترابطة بالمقاربة التقليدية. 

البرمحة اللا خطية في نماذج التنبوًا لتقليدية 

في نموذج انحدار عادي» تستخدم عدة متغيرات مستقلة أو متنبئات (لندعوها 
إل وولف و,2) للتنبؤ بمتغير تابع (لندعوها لا). وقبل إنتاج نموذج ماء عادة ما تتحول 
تلك المتنبئتات التى تمثل الفئات الاسمية (مثل الجمهوري» والديمقراطي» 
والمستقل)» إلى مجموعة من متغيرات وهمية أو صورية (1/8286165 تإستهناط). 
بحيث يأخذ كَل منها قيمة صفر أو واحد. 


وأما المتغيرات المستقلة المستمرة (5 ١/6861‏ غدء0دطءمء0م1 5نامناصنامه©)» 
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مثل العمرء أو الدخلء أو سنوات التعليم» المسماة بقياسات الفاصل الزمني 
(15:16131) أو قياسات النسبة (18210)» فهي عادة ما تدخل ضمن انحدار في شكل 
بسيطء مثلء العمر بالسنوات. أو الدخل بآلاف الدولاراتء أو التعليم بالسنوات. إن 
معامل الانحدار بالنسبة إلى تلك المتغيرات الأخيرة قد يُفسّر تقليدياً باعتباره التغيير 
في لاء المرتبط بزيادة وحدة واحدة (006-1][211) في 236 فيما يتم التحكم في 
المتغيرات المستقلة الأخرى. 

ويفترض هذا التفسير أن العلاقة بين عا ما ولاء علاقة خطية: أي إن زيادة وحدة 
واحدة من ا في النهاية السفلى من سلم 6» مرتبط بالقدر نفسه من التغيير في لا 
باعتباره زيادة وحدة واحدة ل في القيم العالية ل6<. وبتعبير آخر إن رسم عا مقابل 
لا على الرسم البياني قد ينتج خطأ مستقيما. ولكن ماذا لو اقتحمنا الشك في امكانية 
أن تتنوع العلاقة عبر قيم مختلفة ل ؟ (سينتج ذلك منحنية (010596) من المنحنيات 
أو خطا ملتويا (©صانآ نزاعع18/1). إذا ماتم رسم 1 مقابل ل9). 


في بعض الحالاتء يكون من البساطة نسبياً استبدال فترة زمنية مستمرة أو متنبئ 
نسبة بمجموعة من المتغيرات الوهمية أو الصورية (بحيث يأخذ كل منها قيمة واحد 
أو صفر) التى ستمكننا من إدراك إمكانية وجود علاقة لا خطية بين كا ماء أو لا. ومثال 
ذلك» عندما تكله أعوام من التعليم بصفتها متنبّئاً. يفترض العديد من الباحثين أن 
تأثير أعوام من التعليم غير خطيء ومن ثم إعادة ترميز التعليم في مجموعة متغيرات 
وهمية - على سبيل المثال أقل من خريج مدرسة ثانوية» خريج مدرسة ثانوية» وكلية 
ماء ودرجة الباكالوريوسء درجة الماجستير أو درجة أعلى. وبعدهاء تستطيع تلك 
المتغيرات - وهي تدخل بصفتها مجموعة ضمن تحليل انحدار تقليدي بفئة محذوفة» 
تعمل عمل فئة مرجعية - اجتلاب علاقات خطية بين التعليم ولا على مستويات 
مختلفة من التعليم. 

وحسب العديد من المتنبئين الآخرين» مع ذلكء لا يدرك باحث ما في وقت 
مبكر ما إن كانت العلاقة بين متغير ا خاص ولاء علاقة خطية. وتفترض الممارسة 
المعتادة في بحث كمي تقليديء العلاقة الخطية» اللهم إلا إذا كان لشخص ما داع 
قوي لتبني عكس ذلك الطرح. ومن ناحية» يعد ذلك مجرد مسألة وقت وجهد: 
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وتستغرق مسألة فحص اللا خخطية بالنسبة إلى العديد من المتنيئات» وقتاً طويلاً 
للعاية: 


ومع ذلك. يحدث شيء آخر أكثر أساسية من مجرد الوقت والراحة» ذلك بأن 
قسماً كبيراً من الإحصائيات التقليدية قام على تصور الارتباط - أي المدى الذي 
يحقق فيه متغير ما زيادة في القيمة» ويخضع الآخر أيضاً لتغييرات. ويمكن لمجموعة 
بيانات برمتها أن ل بمصفوفة الارتباط (1)02):1<2 ه0012000)): أو مصفوفة 
تباين - التغاير (7/12111 1/8513006-00731182866) التى تلخص العلاقات بين 
المتغيرات. / 

ولسوء الحظء إن معامل الارتباط (006111016054) 001513108)) يقيس فقط 
العلاقة الخطية بين أي زوج من المتغيرات» وتهمل أي مظهر لا خطي. وتبسط - 
أحياناً - مسائل» فتفرض حلا غير مناسب. ولكن مع تطور التعلم الآلي وطرق أخرى 
كثيفة حاسوبياًء لم يبق هذا التبسيط ضرورياً. وتتوفر طرق «آلية» جديدة يمكنها 
البحث عن علاقات لا خطية» والعمل على صياغتها. وفي بعض الحالات. ستنتج 
هذه الطرق تنبؤاً أكثر دقة. 

إن هذه الأدوات الجديدة من أدوات التنقيب في البيانات الأكثر بساطة. تمكن 
الباحثين فقط من تصور بياناتهم: لرؤية العلاقات اللا خطية بين متغيرين أو أكثر 
باعتبارها ضور انطلاقاً من رسوم بيانية بسيطة أو مخططات التشتت (1015م1ع521) 
إلى تصورات أكثر خيالاء تمثل أسطحاً منحنية يمكن إدارتهاء والنظر إليها من زوايا 
عديدة. ففي غامب (1112). مثلآ» تدعى إحدى أدوات التصور الأكثر إفادة» المحلل 
أو المرسام (5:01167). وبعد تشكيل نموذج ماء يمكن للمرء استعمال هذه الأداة 
لمعرفة مدى تأثر قيم أي متغير كان في وقت تتغير فيه قيم متغيرات أخرى. 

وبعيداً عن التصورء يمكن لإجراءات التنقيب في البيانات الأخرىء توليد نقاط 
التوقف (81621501205)» بشكل آلي بالنسبة إلى متغيرات مستقلة مستمرة بهدف 
اجتلاب تأثير لا خطي ل كا ما في لا. مثلاء قد يشير تحليل شجرة انحدار (08127) 
ما (التصنيف وشجرة الانحدار - نوع من تقسيم بيانات أو نموذج شجرة) إلى تأثيرات 
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لا خطية للدخل في لاء لتجد نقاط توقف دخل هام بواقع 520,000 و560,000 
و590,000: و 150,000 5. 


وتشمل طريقة بديلة لاستكشاف علاقات لا خطية في البيانات» عملية يطلق 
عليها مختصون في التنقيب في البيانات اسم توزيع الخانات (8نصهذ8). وعموماء 
يشمل توزيع الخانات؛ تحويل متغير رقمي مستمراً مثل الدخل داخل مجموعة من 
الفئات أو خانات منظمّة. ولهذاء فعوض تمثيل الدخل بالدولارات التي تتراوح ما 
بين الصفر و51,000,000 وأكثرء يصنف توزيع الخانات حالات أو أشخاص إلى 
فئات مثل صفر إلى 55000؛ 55001 إلى 515,000؛ و515001 إلى 525,000؛ 
وهكذا. وثمة مصطلح آخر يستخدم في هذا الصدد, يدعى التفريد (1(156561128100): 
إذ يجعل من فئات منفردة شيئأ كان مستمرا. 

وثمة نوع مفيد - بشكل خاص - من توزيع الخانات» يدعى توزيع الخانات 
الأمثل (عستسمزظ لهحصنام0) أو التفريد القائم على الأنز وبي لعكد -[م 10 م18) 
(150611226101 للتعامل مع العلاقات اللا خطية. إنها تموضع نقاط التوقفات بين 
الخانات على نحو يعظم تنبؤ متغير تابع لا. وبتعبير آخر» تختار الحدود المخصصة 
لكل خانة من قبل البرمجيات على نحو يجعل الحالات في كل خانة مختلفة قدر 
الإمكان عن خانات أخرى من حيث قيمها على ل ,112112011 لصة ,عط بدع11/1) 
(316. وهذا مفيد جداً في تحديد علاقات لا خطية بين منتبئ ومتغير تابع. 

وسنقدم أمثلة في أقسام لاحقة» ولكن في هذه المرحلة» إن الفكرة الرئيسة 
الواجب تذكرهاء هي أنه عند استخدام طرقا إحصائية تقليدية» سيستغرق منا ذلك وقتا 
طويلاء وأحياناً تكون مسألة حظ لتحديد علاقات لا خطية بين كَل متغير من المتغيرات 
المستمرة المستقلة العديدة وبين المتغير التابع؛ وأنه نتيجة لذلك كله يكون اعتيادياً 
أو من الشائع التعامل مع العلاقات باعتبارها خطية. ويقدم التنقيب في البيانات حالياء 
أدوات متعددة لأتمتة (]013]ناكث) البحث في علاقات لا خطية» وما ذلك إل سبب 
دفع - جزئياً - نماذج التنقيب في البيانات للميل إلى التنبؤ - على نحو أكثر دقة - 
بنماذج مشابهة لانحدار تقليدي. 
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تفاعلات إحصائية في نماذج تقليدية 

غالباً ما تبحث النمذجة التقليدية عن تقدير المساهمات المتصاحبة لعدة 
متغيرات مشاركة (001783113]65)) للتنبؤ بمتغير النتيجة (عاطق ههلا عتامءان0). لا. 
على سبيل المثالء قد يُنَظّر باحث في التعليم حول دور الإعداد الأكاديمي لطالب ما 
في المرحلة الثانوية» ووضع العائلة الاجتماعي الاقتصادي» ومتطلبات الشغل» 
والدعم المادي في نموذج ما ليتنبا بالطلاب الذين يتركون الدراسة. قد يكون هدف 
الباحثء تحديد أهم متنبئ أو أكثر تأثيراً في خطر ترك الدراسة في الكلية (انظر مثلاً 
1 أعذ5اع 1 لطة ,اتع1] ,1اء تع لم ) . 

ولكنء يرى تشارلز راجين (128102 831165©) (2008) أن العديد من المشاكل 
الاجتماعية» تحتاج إلى منطق مختلف تماماً عن منطق الهدف المذكورء وذو هدف 
مختلف: ويتجلى في فهم تراكيب عوامل مترابطة بنتائج مختلفة عوض إبعاد دور 
المتنبّئات الفردية. وعبّر راجين عن ذلك ب «تضبيط أو تهيئة الشروط مقابل المتغيرات 
المستقلة». ويمكن دمج «تضبيط الشروط» في انحدار تقليدي ونماذج مماثلة من 
خلال ضم بنود التفاعل بين المتنبئين (انظر لمزيد من التفصيل 11/6546 0صة معء1ز.ىم 
3 11151نا1' لطة 3150عع13. لمة 1991) . 


وإذا كان من الممكن ضم بنود التفاعل في نماذج تقليدية» فلا يعني ذلك أن يقوم 
الباسكون بذلف ايضوزة زوتنية) :على العكسى "فين ذللقة يتك كل من الويرك 
ووينشيب (2010 منطومة/الآ 0هد زع:181) من أن الأغلبية الساحقة من الدراسات 
الكمية المنشورة في علم الاجتماعء تنقل فقط التأثيرات الأساسية (نموذج ذو متنبئات 
متعددة. دون تفاعلات). ومن ناحية» تحدث إزالة التفاعلات هذه. من النماذج 
التنبؤية» لآن (بحسب هذين المؤلفين) العديد من الباحثين أساؤوا فهم معنى 
معاملات التأثير الرئيس في الوقت الذي تتم فيه «التحكم في» متغيرات مشاركة 
أخرى. بالإضافة إلى ذلك» يصدر غياب تأثيرات التفاعل فى مقالات بحثية منشورة 
عن مشاكل عملية: ثمة أعداد هائلة من تفاعلات محتملة بين المتنبئين. ومن أصل 8 
متنبئات» توجد 28 تفاعلات في اتجاهين (تركيبات»» زائد تفاعلات إضافية ذات 
ترتيب علي وكيف يحدد باحث ما التفاعلات الاستتباعية (00256011621131)) من 
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بين ثمانية وعشرين تفاعل محتمل؟ ستستغرق عملية بناء كُل متغير تفاعل على 
إلويرت (1:1611) ووينشيب (منطمصة/)» أن معظم صانعي النماذج من الاجتماعيين» 
يهملون هذه المهمة ويقتصرون على نماذج التأثير الأساسية. 

وات تعيمنان النقااكا كل لاحي والزيرك رويضيي :أن لاد عل 
تأثيرات رئيسة في نماذج إحصائية تقليدية» نقطة ضعف خطيرة» وأن على الباحثين 
التركيز أكثر على تحديد تفاعلات معقدة بين المتنبئات المتعددة. 


تفصيل القول فيهما في فصول لاحقة (التصنيف وشجرة الانحدار '04151).: وفي 
مربع للكشف عن التفاعل التلقائي ((011811) - من خلال اختبار آلاف التفاعلات 
الممكنة أو التركيبات من بين المتنبئين» لتحديد التفاعلات المستتبعة لمتغير تابع 
خاص والتفاعلات غير المستتبعة. وبمجرد تحديدهاء تستخدم بعد ذلك تلك 
التركيبات من القيم أو التفاعلات للتنبؤ بمتغير تابع أو هدف ما بطريقة نسجمة مع 
توصية راجين لدراسة «تهييئات الشروط». عوض (متغيرات مستقلة). 

كما بلغت تقنيات أخرى من التنقيب في البيانات تأثيراً مماثلاًه من خلال توليد 
ما يعادل التفاعللات بشكل آلي. داخل نماذجها التنبؤية. وتعد نماذج الشبكة العصبية 
مثال من الأمثلة التي سيتم وصفها لاحقاً. 

وفي الغالب» يمكن لنماذج التنقيب في البيانات» التفوق على نماذج إحصائية 
تقليدية من حيث التنبؤ» أو في نسبة التباين التي تم شرحهاء ذلك بأن نماذج كثيرة 
جداًء تهمل التفاعلات بين المتنبئات (سواء من خلال إزالتها بأكملها أو ضم فقط 
قليل منهاء من أصل تفاعلات محتملة عديدة)» فى حين تعد طرق التنقيب فى البيانات 
أكثر شمولية أو دقة فى تقييمها للتفاعلات واستعمالها من بين التنبؤات. 
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الجدول رقم 1.2: مفارقات بين النمذجة التقليدية والتنقيب في البيانات. 


زيادة القوة التنبؤية 


اختبار الدلالة 


الفا 


علاقات لا خطية 
بين 26 ولا 
تفاعالات بين 


٠. تنك‎ || 








المنهجية التقليدية 
رئيسي 
- انخفاض التسامح مع قياس 
1 

-الحسم في تتم 
الفرضيات وتفسير الآليات 
2 بعض ممارسات الاختبار 

تعيبها التعددية 


- اختبار الدلالة مرتبط 
بافتراضات المعاينة 
- كل العينات يتوقع أن 
تكون عينات عشوائية 
بسيطة أو عشوائية معقدة. 
- غالباً مايتم تجاهلها أو 
إهمالها 
غالا مايتم تجاهلها أو 
إهمالها 
- النزوع المسبق للتأثيرات 
الأساسية 





- التنبؤ محط تركيز رئيسي 
- نّم قوة تنبؤية عالية 


- تعميم من لدن الصلاحية 
المتبادلة بدل اختبار 
الدلالة 

- بعض التقنيات» «علب 
سوداء» (غياب أي 
معلمات مفيدة) 

- انتشار تقنيات 
البوتسرابينغ أو العملية 
التمهيدية واللا معلمية 

-إقراز العرتات المشولة 





- تعريف آلي جزئيا 


- تعريف الي جزثيا 
للتفاعلات والتأثيرات غير 
المتجانسة 


يلخص الجدول رقم 1.2» المفارقات المختلفة التي استخلصناها بين النمذجة 
الإحصائية التقليدية والتنقيب في البيانات. وفي الفصول الموالية» سنشرح كيف 
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تؤدي طرق التنقيب فى البيانات أداءً مختلفاً بل يمكن القول إنها أفضل من المنهجية 
التقليدية» ومن ثمة» فهي متفوقة في التنبؤ. 
الاستنتاج 
فى هذا الفصلء قمنا بوصف جوانب متعددة من المقارنات بين منهجيات 

التتقيب في البيانات للتحليل الكمي من ناحية» وبين نمذجة إحصائية تقليدية من 
ناحية أخرى. كما ركزنا على الطرق التي يستتبع فيها منظور التنقيب في البيانات 
بعض الانتقادات لأكثر المنهجيات رسوخا في تحليل البيانات. ماذا يعني هذا بالنسبة 
إلى العلاقة المستقبلية بين البحث في التنقيب في البيانات» وبين البحث الإحصائي 
التقليدي؟ من وجهة نظرناء من المستبعد جداً أن يحل التنقيب في البيانات محل 
المنهجيات الإحصائية التقليدية. ومن المحتمل أن تكون عملية من عملية التهجين 
أكثر تطوراء حيث يستخدم محللو المنهج الكمي - بشكل متزايد - بعض أدوات 
التنقيب في البيانات في عملهم» وحيث تشق بعض وجهات النظر الأكثر عمومية» 
الناشئة عن التنقيب في البيانات» طريقها صوب التنفيذ ونقل التحليل الكمي في 
العلوم الاجتماعية والسلوكية. ونتوقع أنواع التحولات القصيرة المدى التالية: 

© سيولي الباحثون - بشكل متزايد - اهتماماً بإمكانية علاقات لا خطية بين 

المتنبّئات والنتائج» من خلال الاستفادة من أدوات التنقيب في البيانات مثل 

توزيع الخانات الأمثل والأشجار لإنتاج متنبئات جديدة» تمثل النظم 

اللا خطية بشكل أفضل. وستضاف هذه المتنبئات المعدلة إلى نماذج معينة» 

وستساعد - في بعض الحالات - على الرفع من دقة النماذج التنبؤية. وسنقدم 

أمثلة على ذلك ضمن الفصول القادمة. 

» سيصبح البحث عن التفاعلات الإحصائية بين المتنبئات» أكثر انتظاماً أو 

شمولية» وذلك بالاعتماد على أبحاث مُوَّنْمَنَةَ فى التفاعلات الإحصائية 

المشابهة للنوع الذي سبق تقديمه في أدوات منمذجة غامب برو (8:0 1/18): 

و/ أو باستخدام أشجار القرار أو طرق التقسيم - مثل مربع لكشف عن 

التفاعل التلقائي ((11411©). وشجرة الانحدار (0817) - التي تحدد 

التفاعلات. ومن ثم» فسيصبح - حسبما نتوقع - من الشائع رصد عملية ضم 
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العديد من بنود التفاعل فى نماذج تنبؤية تقليدية» ستحسن من جديد دقة 
النموذج» 82 ء أو التناسب 510). 


» ومن الأرجح أن يفحص الباحثون بياناتهم لرصد تأثير عدم التجانس» 
وإمكانية اختلاف معاملات المتنبئات في نموذجها التنبؤي بصورة ملحوظة 
بالنسبة إلى مجموعات فرعية مختلفة داخل العينة أو الساكنة. إن طرق 
التجميع التي يقدمها التنقيب في البيانات» والأدوات البارزة أدناه» مثل 
نماذج مختلطة (2100615 31016). وانحدار الفئة الكامنة» تيسر البحث 
في التأثيرات غير المتجانسة وتميل إلى تقديم نظرة أكثر تعقيداً أو دقة 
لعمليات اجتماعية وسببية» مبتعدة عن نظرة «مقاس واحد يناسب الجميع». 


© وقد يشهد الباحثون في النهج الكمي تحولاً في الرؤى - بحسب مدى 
تأثرهم بالتنقيب في البيانات في القادم من الأعوام - فيصرفون النظر عن 
هدف بناء نموذج تنبؤي واحد» الذي يعد جهدهم الأفضل» ويتبنون مقاربة 
مستلة من التنقيب في البيانات» تشكل نماذج تنبؤية متعددة مختلفة. 
مستخدمين في الغالب طرقاً متباينة للغاية» وتمزج بشكل مثالي التنبؤات من 
هذه الطرق المتعددة لإنتاج تنبؤ نهائي» أكثر دقة من ذلك المحصل عليه من 
أي نموذج كان. وتنجز هذا أدوات التنقيب في البيانات المعروفة باسم 
التعزيز (800516108). وطرق طقم منسجم الأجواء (005طاع81 عاطاسععمظط) 
التى ستناقشها فى فصول لاحقة. ويعمل هذا على تحسين الدقة التنبؤية 
المرتبط بالمعازسات التقليدية. 

© إننا نتوقع هنا بقاء اخختبار الدلالة الإحصائية في العلوم الاجتماعية 
والسلوكية» وكذا في البحث التربوي والطب الإحيائي» على الرغم من 
الجهود المرحلية لإقناع المحررين لإلغائه لصالح التركيز على أحجام تأثير. 
ومع ذلكء نتوقع أن تؤثر ممارسات التنقيب في البيانات - بشكل متزايد - 
في الممارسات التقليدية الراهنة وتعديلها فيما يخص حساب مستويات 
الدلالة أو قيم -0 ونقلها. ويمكننا سلفاً معرفة أن شعبية تقنيات إعادة المعاينة 
(1128مدصدوعء8). مثل اختبارات تمهيدية وتبادلية» في تنام مستمر» ومرد 
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ذلك خركا إلى كن الترمحتات الحدكة والحواسنة الفائقة السرعة قر 
أكثر من عملية الحساب, ولأن هذه الطرق اللا معلمية لحساب الأخطاء 
المعيارية للتقديرات» لا تقوم على وضع افتراضات إحصائية غير قابلة 
للتصديق. كما تميل هذه الطرق الأكثر حداثة لحساب القيم-م لأن تكون 
أكثر تحفظاً من المقاربات القديمة - لتنتج في الغالب» أخطاء معيارية أكبر» 
ومن ثم إنتاج معاملات دلالية أقل. من المرجح - على ما يبدو - أن تقلص 
هذه الطرق مقدار الخطأ من نوع 1» وسيّبدأ ذلك» عملية تقليص مقدار 
البحث غير القابل للإنتاج أو التكرار. 
وقد تحدث خطوة أكبر نحو بلوغ هذا الهدف. إذا بدأ محررو المجلات يفرضون 
مقالات بحثية كمية لاستخدام طرق الصلاحية المتبادلة المألوفة في التنقيب في 
البيانات. وقدمنا باختصار منطق الصلاحية المتبادلة أعلاه» وسنقدم أمثلة ضمن 
الفصول المتتالية» ولكن تتمحور الفكرة الجوهرية حول كون كُلَ دراسة ستقسّم 
بياناتها عشوائيا وتختبر ما إن كان في إمكان نموذج تنبؤي ماء المتطور انطلاقاً من 
قسم من البيانات» التنبؤ بدقة» مستخدماً مجموعة من الترصدات التي لم تستخدم في 
إنتاج النموذج التنبؤي. وتعد الصلاحية المتبادلة شكلاً من أشكال المضاعفة التي 
«رفع الحاجز» (827 56) 188156)» لتقييم دليل تجريبي. وفي رأيناء سيكون لتبني 
الصلاحية المتبادلة» تأثير مهم ومفيد في العلوم الاجتماعية الكمية. 
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الفصل الثالتث 
استراتيجيات عامة مستحدمة 
في التنقيب في البيانات 
صلاحية متبادئلة 


إَ تجريف البيانات - الذي يُعنى بالبحث في البيانات إلى غاية إيجاد علاقات 
ذات دلالة إحصائياً - عملية تستهجنها الكتب المدرسية التقليدية في الطرق» التي 
تعلّم الطلبة توليد فرضيات قبل بدء التحاليل الإحصائية. وقد نهضت مقاربة التنقيب 
في البيانات بتجريف البيانات إلى آفاق جديدة - ولكن ما يحسب لهاء عدم مجاراتها 
المثل السيء للنموذج الأصلي التقليديء فيما يخص اختبار الدلالة لما تكون هناك 
متنبتات متعددة. إنها تركز - في المقابل - على طريقة بديلة من طرق تجنب نتائج 
إيجابية - كاذبة أو تجنب النوع الأول من الخطأ (8:07 1 ءملا1): أي إنها تركز على 
المضاعفة (160110300) عوض اختبار الدلالة» عبر إجراء ما يعرف بالصلاحية 
المتشادلة. 


وقبل البداية لتحليل ماء متضمن للصلاحية المتبادلة» تفصل برمجيات التنقيب 
في البيانات الحالات داخل مجموعة بيانات ضمن مجموعات مختلفة» بحيث تُعهد 
كُلَ حالة أو ترصدء لمجموعة أو أخرى. (إن التخصيص العشوائي هنا أمر حاسم). 
وعادة ما تسمح برمجيات التنقيب في البيانات المستخدم, باختيار نسبة الحالات من 
مجموعة البيانات الأصلية المخصصة لكل مجموعة. 


© تعرف مجموعة أو مجموعة فرعية عشوائية من الحالات أو الترصدات بعينة 
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التدريب أو عيئة التقدير. وهذه هي مجموعة الحالات التي ستّحَلّل أولا 

© ويتم إنتاج بعض طرق التنقيب في البيانات» وليس جميعهاء المعروفة بعينة 
الموالفة (5812216 1110128) (وتدعى أعنانا عينة التثبت )1١/0110126108‏ 
(16م59202). إنها تستعمل لتقدير بعض مَعْلّماتَ النمذجة التي تنتج تنبواً 
أمثل. على سبيل المثال» تمزج بعض تقنيات التنقيب في البيانات نماذج 
تنبؤية منفصلة ضمن أفضل مجهود نهائي في التنبؤء مما يستدعي اتّخاذ قرار 
حول الكيفية التي يتم بها وزن التنبؤء انطلاقاً من كل نموذج من هذه النماذج 
لدى مزجها. وفي هذا السياق» يمكن استخدام هذه العينة العشوائية الثانية 
من الحالات - بيانات عينة الموالفة - لحساب أوزان بديلة» حتى يكون فى 
مقدور مخطط الترجيح النهائي إنتاج التنبؤ الأكثر دقة» (وهذا ما يعرف 
بالأمثلية (128100نام0)). وفى سياقات أخرى من سياقات التنقيب فى 
البيانات» تُستعمل عينة الموالفة في المقابل» للبت فى عدد المتنبئات التى 
ينبغي أن تدخل ضمن نموذج ما. 

٠.‏ وتعد مجموعة ثالثة من الترصدات المتتقاة عشوائيء محورية فى الصلاحية 
المتبادلة» وهذه عينة الاختبار التى تدعى أحياناً العينة المستبعدة 110100114) 
(©1م533. ولا يستعمل اختبار العينة - بأي حال من الأحوال - خلال إنتاج 


-. 


مقيدا). 


وخلال الخطوة الأخيرة» ضمن تحليل من تحليلات التنقيب في البيانات؛ يُطَبّق 
نموذج تنبؤي تم توليده باستعمال البيانات في عينة التدريب ( امتهةة 00010 
(وأحيانا تشمل أيضا بيانات عينة الموالفة(16م53:0 عدنمهدا1). على بيانات عينة 
الاختبار الجديد). ويولّد النموذج قيماً متنبّاة للهدف بالنسبة إلى حالات الاختبار 
الجديدة هذه وتقارّن تلك القيم المتَتبّأة» بالقيم الحالية المرصودة للهدف في بيانات 
الاختبار. ويَحْسَبٌ الإحصاء التطابقي بالنسبة إلى هذه العينة من عينات الاختبار» مع 
توثيق مدى دقة تنبؤ النموذج المقَدر سابقا بالمجموعة الجديدة من الترصدات. 
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من قبل اختبار ال لي المنهجية التقليدية: إنها طريقة من طرق تقييم تعميم نتائج 
البحث. ويمكنك أيضاء التفكير في الصلاحية المتبادلة باعتبارها نوعا من أنواع ضبط 


ويتجلى الفرق في المنهجيتين في تناول التعميم» في كون أنه في النموذج 
الأصلي التقليدي» تكشف اختبارات الدلالة الإحصائية عن إمكانية تعميم النتائج 
المحصّل عليها من عينة معينة على السكان الذين أخذت منها العينة عشوائيا. علاوة 
على ذلكء يعد تقييم التعميم (/إ1ذ|ذ0676181128)» تقييماً نظرياً أو افتراضياًء بحيث 
لا يملك الباحث بيانات حقيقية للسكان بأكملها. في المقابل» يعد اختبار التعميم في 
مجال التنقيب في البيانات» اختباراً تجريبياء بحيث يُطَبّق نموذج من النماذج التي تم 
تطويرها وأداؤها بشكل جيد في التدريب أو في عينة التقدير» على عينة مختلفة من 
بيانات حقيقية (عينة اختبار)» وتخبرنا دقة المطابقة (011"10 55عم0000) برأي اليباحث 
في مدى تعميم النموذج على البيانات الجديدة. وفي حالة التنقيب في البيانات؛ لا 
يتم التعميم من عينة إلى ساكّن؛ وإنما من عينة عشوائية إلى عينة عشوائية أخرى (أي 
مو التذاريت إلى غينة الاختبار). 

ثمة متغيرات عديدة للصلاحية المتبادلة» إذ تعرف أبسطها باسم الطريقة 
المستبعدة (8061100 110100111)» ومناسبة بشكل مثالى لتحليل بيانات ضخمة ذات 
ترصذات متعددة. وثُقسّم مجموعة بيانات ما بشكل عشواتي إلى غينتين فرعينين أو 
ثلاثة (عينات التدريبء والموالفة» والاختبار)؛ فتستبعد عينة الاختبار» ولا تستعمل 
في تدريب النموذج التنبؤي. وإذا كانت مجموعة البيانات الأصلية كبيرة جدا فإن 
هذا التقسيم العشوائي للعينة الأصلية إلى قسمين أو ثلاثة أقسام, لا يؤدي إلى إشكالية 
فقدان القوة الإحصائية عند تقدير النماذج التنبؤية. ستثرك حالات كثيرة في عينات 
التدريب الفرعية. لاحظ أنه في الطريقة المستبعدة» يسند كَل ترصد على حدة 
عشوائياًء إما إلى عينات التدريب الفرعية» أو عينات الموالفة الفرعية» أو عينات 
الاختبار الفرعية. وعليه» فإن كل عينة فرعية تضم حالات أو ترصدات منفصلة على 
نحو كامل. 
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ومع ذلك» فالصلاحية المتبادلة» لاتحتاج إلى مجموعة بيانات كبيرة» بل يشتغل 
نوع مختلف من أنواع الصلاحية المتبادلة» المعروفة بالصلاحية المتبادلة ذات 
الطية-ك (14-1010). على مجموعة بيانات صغيرة وكبيرة. ويبدأ الإجراء بخلق عدد 
مختار ©1) من عينات فرعية عشوائية» بحيث يتم في الغالب اختيار 10. وتُسحب 
الحالات أو الترصدات عشوائياً من العينة الأصلية» فتسند إلى كل عينة فرعية» إلى أن 
يصير لواحد منهاء عدد »! المختار عشوائياً من العينات الفرعية في جميع الحالات. 
وتضم كل حالة عددا واحدا ءا من العينة الأصلية. 
في حين يتم تجميع العينات الفرعية الأخرى 1-1 لتشكيل مجموعة تدريب. وَيقَدَّرٌ 
على العينة الفرعية ذات مجموعة اختبار واحد؛ فتنتج إحصائية تطابقية أو قياس خطأ. 

وهكذاء يتكرر هذا الإجراء عدداً من المرات ! في جميع الحالات؛ بحيث تقوم 
كل عينة فرعية ع[ بدور مجموعة بيانات الاختبار مرة واحدة فقطء فى حين تمثل الطيات 
المتبقية المختلطة. بيانات التدريب. وإنإحصائية التطابق النهائية التى تنقلها البرمجيات 
هى معدل إحصائيات التطابق بالنسبة إلى عينات الاختبار عبر كُلّ عمليات عا. 

ومهما يكن شكل الصلاحية المتبادلة المنتقاة (وهناك متغيرات إضافية)» فإن 
النقطة الحاسمة التي ينبغي تذكرهاء هو أنه عندما يتم تقييم الدقة التنبؤية لنموذج ماء 
يجب دائماً النظر إلى إحصائيات التطابق من أجل العينة المستبعدة أو عينة الاختبار. 
وتنقل بعض البرمجيات» إحصائيات التطابق بالنسبة إلى عينة التدريب أيضاء ولكن 
تبقى إحصائية التطابق للعينة المستبعدة أو لعيئة الاختبارء الإحصائية المهمة دائماً. 
بالنسبة إلى عينة الاختبار» ينبغي التحول إلى ظاهرة مهمة أخرىء تعرف باسم التدريب 
المفرط (116188رع01) . 

التدريب المفرط 
منها. وتعد بعض تطبيقات التنقيب في البيانات ناجعة جداً في بناء نموذج تنبؤي. 


68 


بحيث تبني شيئاً معقداً جدأء سيعمم على عينات أخرى. وسيكون ذلك سهلاً جداً 
ومفصلاً بيانياً (انظر الشكل رقم 1.3). 


يمكن لنموذج ماء تفسير العلاقة بين ا ولا في هذا المخطط من خلال مواءمة 
خط مستقيمء يمثل القيمة التنبؤية ل لا لقيم متنوعة من قيم 7. وتمثل المسافة 
العمودية من كُلَ نقطة بيانات إلى الخط المستقيم» خطأ التقدير بالنسبة إلى كُل نقطة 
بيانات في ذلك النموذج البسيطء أي الفرق بين القيمة المتنبّأة ل لا والقيمة المرصودة 
دلا :النسبة إلى كل قيمة من قيو)3. 

وقد يقلص نموذج من النماذج الأكثر تعقيداً للغاية مقدار خطأ التنبؤ. ويمثل 
الخط المتموج (1126 /ا17/87) معادلة من قبيل ...11+ كزع +016 + يعز0 جعزم + -لا. 
وكما يمكنكم رصد ذلك في المخططء إن هذا الخط الأكثر تعقيداء يمر بشكل 
مستقيم عبر كل نقاط البيانات» مما يدل ضمناً على انعدام وجود أي خطأ تنبؤي ما. 


15 
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الشكل رقم 1.3: بيانات التدريب المفرط. 
ما العيب في اختيار نموذج أكثر تعقيداً إذا كان ذلك يعمل على تقليص الخطأء 
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وينتج تنبؤاً أقوى؟ وقد يحذر مختصو التنقيب في البيانات من أن بعض المسافة التي 
تفصل كُلَ نقطة بيانات الخط المستقيم» قد ترجع احتمالاًء إلى خطأ القياس» أي إلى 
الضجيج (710156). وباستخدامنا نموذجاً معقدأ بشكل كبير - مثل الخط المتموج - 
لمواءمة نقاط تلك البيانات بشكل دقيقء. لا نعنى فقط مواءمة الإشارة (518081)» 
وإنما أيضاً مواءمة الضجيج. إن النموذج العجموج المعقد في اصطلاح التنقيب في 
البيانات» يعد بيانات تدريب مفرطة. والتدريب المفرط أمر غير مرغوب فيه لأن 
ذلك يعني أن النموذج المعقد لن يعمل بشكل ممتاز ما إن طق على بيانات أخرى. 
مثل بيانات الاختبار. لقد فصل النموذج حسب بيانات التدريب المفعمة بالضجيج» 
ومن ثم لن توائم نتيجة ماء بيانات أخرى بشكل ممتاز. 

كيف يتسنى للمرء معرفة ما إذا كان نموذج أو معادلة ماء ذات تدريب مفرط أم 
عكس ذلك؟ عندما يطبق النموذج التنبؤي (عادة في شكل معادلة) المشتق من عينة 
تدريب معينة» على عينة اختبار منفصلة بشكل كامل» وتحتوي على ترصدات أو 
حالات مختلفة» آنذاك يمكن للمرء مقارنة القيم المتنبّأة المحصل عليها انطلاقاً من 
النموذج» بالقيم المرصودة في مجموعة البيانات الجديدة» وتحديد مدى مواءمتها. 
وتقدم هذه الخطوة الثانية تقييما جديرا بالثقة لمدى صلاحية النموذج التنبؤي لبيانات 
لم تستخدم من قبل. 

واسيتراجع» التدريب المفرط أو يخفق في المساعدة على تنبؤ الاختبار أو 
البيانات المستبعدة لأن جزء من النموذج الذي وصف أنماط الحظ في بيانات 
التدريب (القسم ذو التدريب المفرط)» سيخفق في تنبؤ أي شيء مفيد في مجموعة 
البيانات الثانية أو مجموعة بيانات الاختبار. وسيكون هناك ضجيج عشوائي في عينة 
الاختبار العشوائي أيضاًء ولكن إذا كان الضجيج عشوائياًء فمن الطبيعي أن يكون 
الضجيج نفسه كما هو الحال في مجموعة البيانات الأولى. ومن ثمء لن يكون لها 
النمط نفسه. بل لن يكون لها أي نمط من الأنماط في واقع الآمر. 

عادة ما ستكون إحصائية تطابقية لنموذج ماء تم حسابه بالنسبة إلى عينة تدريب» 
أفضل من تطابق النموذج نفسه المطبق على عينة اختبار (ذلك بأن بيانات الاختبار لن 
تكون ذات تدريب مفرط). وإذا ما وجد فرق كبير في إحصائية التطابق بين عينة 
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تدريب وعينة اختبار» فإن ذلك إشارة قوية على وجود تدريب مفرط فى الحالة 
الأولى. وفي المقابل» إذا كان تطابق نموذج ما في عينة تدريب ماء وتطابق امود 
نفسه المطبّق على عينة اختبار ماء قريبين بما فيه الكفاية» فإن مؤدى ذلك انعدام وجود 
تدريب مفرط في الحالة الثانية: ومن ثم فإن النموذج قادر على التعميم بشكل جيد. 

وكي نختمء يبدو أن استخدام التنقيب في البيانات للصلاحية المتبادلة» منهجية 
أكثر صرامة لتجنب الخطأ من النوع الأول (نتائج إيجابية كاذبة) من استراتيجية اختبار 
الدلالة المألوفة في البحث الاجتماعي التقليدي. يقيم المرء دقة نموذج من نماذج 
التنقيب في البيانات من خلال علم الإحصاء التطابقي المحصل عليها لفائدة اختبار 
مختار بشكل عشوائي أو لعينة مستبعدة» وهذا يوفر قياسا جديرا بالثقة لتعميم النتائج. 

ويقدم الشكل رقم 3 تصويراً مرئياً لإمكانية استخدام الصلاحية المتبادلة 
لتجنب التدريب المفرط. إن الربعين (0112078705) الموجودتين في أعلى المخطط. 
هى تحاليل نقاط البيانات نفسها. وتظهر الربعية الموجودة فى أعلى يسار المخططء. 
تمرقجا مهدا نطاقا ليه الناناك: أن مص ذا كط انعطا ف جد3 تيه رطا 
النموذج (الممثل بالخط) كُلَ نقاط البيانات إلى حدّ بعيد. مما سينتج تنبؤاً جيداً جداً 
بالنسبة إلى بيانات التدريب. ومع ذلكء قيل لنا بشأن الربعية» إن الصلاحية المتبادلة 
(7©) تخبرنا بأن هذا نموذجاً سيئاً جداًء لأن الإحصائيات التطابقية كانت تتقلص 
تدريجياً بشكل كبير عندما يتم تطبيقها على بيانات الاختبار. وكان النموذج الأصلي 
ذا تدريب مفرط بكل تأكيد. 


وتشير الربيعتان أيضاً إلى مجموعة بيانات مستقلة» ولكنها مجموعة بيانات 
مختلفة انطلاقاً من النصف الأعلى للمخطط. وعلى الجانب الأيسرء تتم عملية 
مطابقة نموذج معقد من نماذج التنقيب في البيانات» ولكن قيل لنا إن إحصائيات 
التطابق للصلاحية المتبادلة لصالح هذا النموذج» هي تقريبا جيدة بالنسبة إلى عينة 
الاختبارء وعينة التدريب على حدٌ سواء. وهكذاء يمكن أن نستخلص أن هذا نموذجا 
قابلاً للتعميم» على الرغم من كونه معقداً؛ وليس نموذجاً ذا تدريب مفرط. وللتنبيه 
فقطء فإننا نحاول أيضاً أن نجرّب نموذجاً أكثر بساطة على البيانات نفسها. وتوضح 
ذلك الربيعية الموجودة في أسفل يمين المخطط. وبهذا النموذج الجديد. نجد أن 
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إحصائيات التطابق بالنسبة إلى عينة الاختبارء جيدة بالقدر نفسه بالنسبة إلى عينة 


التدريب. 
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التعزيز 

لقد قلنا إن التنقيب في البيانات يؤكد أهمية التنبؤ الدقيق» وهو - منهجية مع 
النموذج الأصلي التقليدي - أقل تقبلاً لنماذج قادرة فقط على تفسير نسبة صغيرة من 
التباين في متغير مستقل. ولأن التنبؤ المعزز يُعدٌ باعثا قويا بالنسبة إلى المختصين في 
اليب فى :البباناحاء:فانه طزووا تثتيات. جدينة تعمل تعلى تحسين التق يبدو 
بعضها غريبا جدا عندما ينظر إليه من منظور نمذجة العلوم الاجتماعية التقليدية. 
ولكن هذه الاستراتيجيات - كما سنبين ذلك لاحقا - غالبا ما تتفوق على النماذج 
التقليدية عندما يتعلق الأمر بالتنبق. 

وما التعزيز (8005]128) إلا أحد هذه الاستراتيجيات» إذ تتعامل مع إنتاج 
النموذج باعتباره سلسلة من الخطوات. وقد يبدأ المرء مثلآ» بتقدير نموذج انحدار 
للتنبؤ بمتغير مستهدف مرصود لا. وإن تطابق النموذج ليس مثاليأء ومن ثم» فستكون 
لكُلَ ترصّد قيمة متبقية أو خطأ تنبؤء أي الفرق بين القيمة المرصودة والمتنبّأة على لا 
بالنسبة إلى كُلٌ حالة» أو -لآ. 

وفي خطوة ثانية» يُقدّر نموذج تنبؤي آخر باستخدام طريقة نمذجة مختلفة» 
ولكن هذه المرة من خلال تنبؤ القيم المتبقية (166510101215) انطلاقا من النموذج 
الأول» عوض تنبؤ المتغير الأصلي التابع» لا. وينتج هذا النموذج الثاني أيضا قيما 
متنبأة» ولكن تظل بعض أخطاء التنبؤ قائمة. ولذلك. يمكن للقيم المتبقية من هذا 
النموذج الثاني - بدوره - تنبؤها بواسطة نموذج ثالث. وهكذا بالنسبة للعديد من 
عمليات تكرارية. 

وأما الخطوة الأخيرة في تحليل معزز» فتتجلى في مزج معادلات التنبؤ المحصّل 
عليها من كَل خطوة (1999 /1010868/8). ويّنجز ذلك أحياناً من خلال توفير أوزان 
متناقصة لنماذج ناجحة» ومن ثم تجميع التنبؤات للحصول على تنبؤ وحيد أفضل ل لا. 

ويمكن للتعزيز أن ينتج تحسناً كبيراً في التطابق الأخيرء أو الدقة التنبؤية لنموذج 
من نماذج التنقيب في البيانات» مقارنة بمقاربة تقليدية ذات الخطوة الوحيدة. وقد 
كتب ماتهياس شونلو (021811طء5 135ط8126) (2005) برنامج «الستاتا» 518]8) 
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(2081312 المعروف باسم «زيادة» 80050) الذي يطبق خوارزم تعزيز مألوف. 
وينقل أداؤه من خلال مثالين: انحدار خطي تقليدي وانحدار لوجيستي تدريجي؛ ففي 
السياق الأولء تنبأ نموذج انحدار المربعات الصغرى التقليدية العادية 21.3/ من 
التباين (187): فى حين فسرت المتتبئات المتطابقة» والبيانات فى اتخدار معززء 
8 من التباين. أما بالنسبة إلى انحدار لوجيستي تدريجيء فقد صنف برنامج 
«الستاتا» التقليدي بشكل صحيح. 11 من الحالات بيانات الاختبار» ولكن 
التعزيز تنبأ بشكل صحيح ب 76.0/ من الحالات في عينة من عينات الاختبار. وهذه 
زيادات ضخمة في القوة التنبؤية بفضل التعزيز. 

وستَذْكرٌ أن إحدى التفسيرات المألوفة المقدمة بشأن السبب وراء تفسير النماذج 
الإحصائية التقليدية (أي لا تعتمد التنقيب في البيانات)» التي تفسر في الغالب فقط 
نسبة صغيرة من التباين» تتجلى في حضور قياس الخطأ و/ أو ذ في المفهوم الذي يفيد 
بأن بعض العوامل المهمة لم يتم قياسهاء ومن ثم حذفت من النموذج. ومع ذلك. 
نرى هنا أن تقنية واحدة من تقنيات التنقيب في البيانات - التعزيز - يمكن أن ترفع 
حايس المقيد يكل كير جار اك كير ليا كارع اتيمال الي الريت 

سي الحتدنات والجانا جا نننها بتكل دفي باعارها البموةع القليدي . وفي هذه 
الحالة» يعد الادّعاء أن خطأ القياس والمتغيرات المحذوفة هي المسؤولة عن تقليص 
التباين المفسر ادَّعاءً مجانباً للصواب. 

وثمة شيء عن الأداء التنبؤي بشكل واضح لهذه النماذج التقليدية التي تعد أقل 
شأناً من منهجية التنقيب في البيانات. لقد كان التعزيز قادراً على إيجاد مزيد من البنية 
في البيانات» أكثر مما تستطيع المقاربة التقليدية القيام به. ولم ب يكن ذلك راجعاً إلى 
التدريب المفرط» لأن هذه الإحصائيات التطابقية المثيرة ليست موجهة للعينة 
العشوائية الأصلية لبيانات التدريب التي أنتجت النموذج التنبؤي» وإنما لعينة بيانات 
اصطناعياً. وقمنا بإنجاز تحليل مماثل لمعرفة ما إن كان أداء التعزيز جيداً أيضاً مع 
بيانات العالم الحقيقي. ونقل انحدار مربعات صغرى تقليدية عادية في الجدول رقم 
3 أدناه إذ يتم فيه تنبؤ لوغاريثم الدخل الشخصي من خلال متغيرات السوسيو 
الديموغرافية المتعددة» وذلك باستخدام بيانات مستقاة من مسح المجتمع الأميركي» 
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الذي أعده مكتب تعداد السكان فى الولايات المتحدة الأميركية (نمنهع15نا8 كناكداع©). 
عام 2010. على الرغم من وجود عينة كبيرة» ومتنبئات عديدة» وجمع بيانات ذات 


جودة عالية تقنيًء فإن التباين المفسر كما يمثله انحدار 17 هو فقط 29/. 


الجدول رقم 1.3: انحدار مربعات صغرى عادية تتنبأ لوغاريثم الدخل الشخصى. 
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أقل من المدرسة الثانوية 
كلية ماء من دون درجة علمية 
درجة الزميلة 

أكثر من درجة الباكالوريوس 
بريطانيا الجديدة 

منتصف المحيط الأطلسي 
وسط الشمال الشرقي 

وسط الشمال الغربي 

وسط الجنوبي الشرقي 
وسط الجنوب الغربي 
الجبال 0-- 7))) 01- 





المحيط الهادي (المرجع - المحيط 
الأطلسي الجنوبي) 
ملاحظة: ترصدات 1,226,925 - 1 ثابتة - 8.077؛ 0.2882 -122. 
وفي الجدول رقم 3 يقارن هذا النموذج التقليدي بنماذج متعددة للتنقيب في 
البيانات التى استعملت البيانات ذاتها. إن السطر الأول يكرر 22 بالنسبة لانحدار 
المربعات العثر التقليدية العادية أعلاه» فى حين تنقل الأسطر الأخرى إحصائيات 
© بالنسبة إلى أربعة نماذج مختلفة من نماذج التنقيب في البيانات» مستخدمة البيانات 
والمتغيرات المتطابقة. وفى كَل حالة» تفسر مقاربة التنقيب فى البيانات - بشكل 
معتبر مزيداً من التباين أكثر من الانحدار التقليدي: إن لها قوة تنبؤية أفضل بكثير 
(على الرغم من أننا لم نشهد تحسنا كبير مقارنة مع مثال شونلو). وتستخدم هذه 
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النتائج بيانات حقيقية» لكن يتم عرضها هنا فقط من أجل أغراض توضيحية. وإذا ما 
كنا قد «أضفنا تعديلات نهائية» إلى نماذج التنقيب في البيانات بدرجة أكثرء من خلال 
تطويع معلمات متنوعة» ولأمكن لنا زيادة 12 أبعد من ذلك. 


الجدول رقم 3 أداء انحدار المربعات العادية الصغرى المعيارية. 
مقابل نماذج التنقيب في البيانات. 


نوع النموذج عينة اختبار 18 
المربعات العادية الصغرى 58. 
شجرة التقسيم 2 
غابة نظام تمهيدي لتشغيل الحاسوب 8. 
الشجرة المعززة 6 
الشبكة العصبية 481. 








معايرة 

المعايرة الاستراتيجية الأخرى من استراتيجيات التنقيب في البيانات لتحسين 
تنبؤ النموذج الذي انحرف أيضاً عن الممارسات التقليدية. وإن إحدى الافتراضات 
الإحصائية الكامنة وراء نمذجة الانحدار التقليدي هو كون - وعبر الطيف الترددي 
لقيم المتغير التابع لا - التقدير الأفضل ل لا يعد دائماً التنبؤ (الذي يُدعى لآ أو -لا 
قبعة) المقدم من قبل معادلة الانحدار. ونتيجة لذلك. يجب أن يكون خط (100) 
القيم المتنبأة ل لا مقابل قيم لا المرصودة» خطأً مستقيماً. وإذا كان الأمر كذلك» 
فسيعد النموذج. نموذجا معايرا (08[1518160). 


ولسوء الحظء إن تحليلات بيانات العالم الحقيقي» سواء تعلق الأمر بخط ما أو 
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رسم بياني للعلاقة بين لا ولآء هي في الغالب. علاقة خطية عبر كثير من مجموع قيم 
لا» لكنها تنحرف عن خط مستقيم إما في قيم عالية أو منخفضة ل لا أو فيهما معا. 
ومن ثمء فإن الخطّ ينحني. وفي هذه الحالة؛ يُعد نموذج الانحدار نموذجاً غير معاير 
(08115260ه[])» بحيث لا يتنبأ النموذج بدقة في القيم القصوى ل ل١‏ كما تفعل في 
المدى المتوسط. وفي المقاربة التقليدية» يحاول باحث ماء تحديد متغيرات تنتج هذا 
النمط المنحني» وإضافة آخرين إلى نموذج الانحدارء آملين أن يتسبب ذلك في 
اختفاء الانحناء (ع0128601) . 


يستخدم التنقيب في البيانات أحيانا» منهجية مختلفة. إذا كان نموذج ما غير 
معاير» كما أشير إلى ذلك بواسطة خط منحن ل لآ مقابل لا» فإن الباحث قد يوائم 
ننوذجا متعدد الحدود(2015:2012181) مع 01 .لجدلا بدا بلا لا). أو دالة أخرى 
ناعمة مثل دالة الخُّدة (©«ذام؟). ولا يضيف هذا الإجراء أي شيء إلى الفهم 
الموضوعي للعلاقة بين المتنبئات المتنوعة والمتغير التابع» لأن الباحث لم يكتشف 
سبب حضور المنحنى. ومع ذلك» حسّن هذا الإجراء دقة تنبؤ لا وطور مواءمة 
النموذج. 

ويقدم الجدول رقم 3.3 توضيحاً لتأثيرات المعايرة في التباين المفسرء وذلك 
باستخدام نموذج انحدار المربعات الصغرىء, وتنبؤ لوغاريثم الأرباح 04 08.آ) 
(351185 بحيث تشمل المتنبئات: العمر. وتربيع العمر. والتحصيل العلمي (بمثابة 
مجموعة من متغيرات وهمية (81180165/ /إ1(11222)). والمنطقة.» والجنس. 
وساعات العملء وأسابيع العمل. مرة أخرىء إن البيانات مأخوذة من مسح المجتمع 
الأميركي لعام 2010. وإن إضافة الحدود 2لآ, ودلا وثلآ في معادلة الانحدار» يرفع 
من التباين المفسر من 0.52 إلى 0.59 مبيئاً أن المعايرة يمكن أن تنتج تحسناً في 
الدقة التنبؤية. 

إن التعزيز والمعايرة هما استراتيجيتان مألوفتان في التنقيب في البيانات» بحيث 
يوضح كلاهما التركيز القوي الذي يضعه التنقيب في البيانات على تحسين التنبق 
وعلى الطريقة التي تخَلّفُها في استراتيجيات تحليلية جديدة. 
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الجدول رقم 3.3: تأثير المعايرة في تناسب النموذج. 
12 


خطأ جذر متوسط 
المربعات 
(1231515) 
نموذج انحدار المربعات العادية الصغرى الأساسي 5237. 228 
المذكور أعلاه + حدٌ تربيعي: آ[ 9. 2.11 
المذكور أعلاه + حد تكعيبي: الآ 9. 2.11 
المذكور أعلاه + حدّ رباعي: *آ 9 . 2.11 


يستخدم مختصو علماء التنقيب فى البيانات مصطلح تناسب 20 للإشارة إلى 
دقة نموذج تنبؤي» وتحديداً إلى مدى قرب قيم تنبؤية لمتغير هدف أو متغير تابع من 
قيم مرصودة لذلك المتغير. وإن القياس الأبسط للتناسب بالنسبة إلى نموذج تنبؤي 
ماء مع متغير تابع مستمر» هو نموذج 757 أو 17 المعدل نسبة التباين المفسر بواسطة 
النموذج. ولكن عندما يكون نموذج تنبؤي له متغير تابع ثنائي من قبيل نعم/ لاء أو 
صفر/ واحدء نحتاج إلى طريقة مختلفة لتقييم التناسب. وتدعى التهيئة الأكثر شيوعا 
لتقييم التناسب» مصفوفة ارتباك (2/813 002105102).: التي هي مجرد جدول 
ثنائي. كما أن مصفوفة الارتباك تخبرنا بمدى دقة أداء النموذج التنبؤي الذي شكلناه 
في تصنيف الحالات. إنه يقارن النتيجة التي يتم تنبؤها (نعم/ لا) بالنتيجة المرصودة 
أو الحقيقية (نعم/ لا). 


ام لس لم 


وتوجد في مصغوفة ارتباك حقيقية» أعداد في الخانات الأربع؛ إذ مثلنا - في 
المثال المعروض في الجدول رقم 0.13 الأعداد من قبيل, ,11 » وولآ» ريل عويقآ» فقط من 
أجل الإشارة إلى خانات محددة. ولاحظ ما يلى فى علاقته بهذا الجدول 


© تظهر الترصدات التي يتم تنبؤها أو تصنيفها بشكل صحيح على الخط المائل 
للمصفوفة: تلك الحالات التي تم تنبؤها سلباً ورصدت سلباً في حقيقة 
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الأمرء زائد تلك الحالات التي تم تنبؤها إيجاباء ثم رصدت إيجاباً. أما 
بالنسبة لنموذج دقيق» فإن معظم حالاته يجب أن تظهر بشكل مثالي على 
الخط المائل. 

© أما نسبة الترصدات المصنفة بشكل صحيح بواسطة النموذجء فهي: 
وي 37 ب8)/ 0ر1 3 1 يكير 7 إب8). 

© لكن فى المقابل» تنقل المنشورات بشكل مألوف تصنيفاً عاماً لمعدل الخطأء 
عوض (رية + ريا +ربه + إره)/ (ورظ + ري8). 

© وتنقل بعض المقالاات قياساً يدعى الحساسية (562511117160)) ويعرّف ب 
نوي +ري)/ وولل. 

وتنقل بعض المقالات أيضاً قياساًيُعرف باسم الخصوصية (/إ1ز150اءءم5): 

2ع 

وتعرّف ب (رر2 + رم)/ برل 

© ويُعرّف معدل إيجابي كاذب بنسبة الصور الإيجابية المتنبّأة التي كانت في 
الحقيقة سلبية: (ريط جررظ)/ يب8. 

» يعرف معدل سلبى كاذب بنسبة الصور السلبية المتنبأة التى كانت فى الحقيقة 
إيجابية: نري +,8)/ |ولآ. 

وفي جميع الحالات التنبؤية» هناك مبادلة (17206-017) لا مفر منها في التنبؤ 
بين معدل إيجابي كاذب. ومعدل سلبي كاذب» أو بين الحساسية 


والخصوصية. وإن عملية تقليص المعدل الإيجابي الكاذب سيزيد بالضرورة 
من عدد المعدلات الإيجابية الكاذبة. وفى المقابل» إن تجنب المعدلاات 
الإيجابية الكاذبة يعني أن نسبة المعدلات السلبية الكاذبة سترتفع. 
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الجدول رقم 4.3: مصفوفة ارتباك. 
المحصلة المتنيأة 
المحصلة الحقيقية سلبية (0) 1 1 
إيجابية (1) 0 0 
استخدام مصفوفة ارتباك من أجل قرارات التصنيف 
يمكن لنموذج انحدار لوجيستي ذي متغير تابع صفر/ واحدء أن ينقل بالنسبة 
إلى كُلّ ترصد أو حالة فى مجموعة البيانات» الاحتمال المتنياً: 1 - لا. وستأخذ تلك 
الاحتمالات المتنبّأة مجموعة مستمرة من القيم من صفر إلى واحد. ولكن أين يتعين 
على باحث ما تعيين احتمال «الشريط» أو العتبة» بحيث يفترض أن يكون فوق هذه 
العتبة ترصداً بقيمة 1 - لا» في حين يُتوقع أن يكون تحت هذه العتبة» ترصداً بقيمة 
0 -7ا؟ 


ففي ببرمجيات إحصائية؛ عادة ما يتم تعيين الشريط في 5 - م. ولهذاء يعالج 
برنامج انحدار لوجيستي كُلَ الترصدات باحتمال متنبّأ 5.أو أكبر من ذلكء باعتبارها 
تنبؤات بقيمة 1 - لاء كما يعالج كل الترصدات باحتمالات تقل عن 5.باعتبارها 
تنبؤات بقيمة 0 - لا. 


ومع ذلك لا يصح للمرء أن يفترض - بالنسبة إلى معظم قرارات العالم الحقيقي 
- أن تكون قيمة 5. باعتبارها سقفاًء القيمة الأفضل للتنبؤء لأنه في الغالب هناك عدم 
التناسق ما بين «تكلفة» التنبؤات الإيجابية الكاذبة وبين تكاليف التنبؤات السلبية 
الكاذبة. وقد يكلفك تنبؤ إيجابي كاذب أكثر بكثير من تنبؤ سلبي كاذب أو العكس 
بالعكس» ويجب أن يُشْعِر ذلك نقطة اتّخَاذ قرارك. 


كيف يا ترى يتسنى لك تحديد نقطة انّخاذ القرار» التى تعد الاحتمال المتنبأ 
المحصل عليه من نموذجك حيث تصنف حالة ما باعتبارها 1 -لا؟ وهذا مثل واحد 
من أمثلة المنطق يتم استخدامه. ولنأخذ حالة بنكية حيث ضرورة انّخاذ قرار بشأن 
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تقديم أو عدم تقديم قرض بملغ 55,000 (الجدول رقم 5.3). لقد تم تشكيل النموذج 
للتنبؤ بما إن كان شخص ما سيفي بالتزاماته (أي لا يرجع المبلغ الذي اقترضه). 
لندعو 20 احتمال عدم وفاء المقترض بتعهداته» ومن ثم مط -1 يشير إلى احتمال 
وفائه بتعهداته» فيدفع ما عليه من قروض. 
الجدول رقم 5.3: إضافة اعتبارات التكلفة/ المنفعة إلى مصفوفة الارتباك. 
القرار (التنبؤ انطلاقاً من النموذج) 


تقديم القرض 
رطم الوفاء بالتعهدات 50 1-0 
م-1 عدم الوفاء بالتعهدات 0- 0 


وفى كُلّ خانة» توجد تكلفة القرار بخصوص كل محصلة. ولا بُدَّ من اشتقاق 
هلاه المعلومة من حارج تمرةع النيو من شخ يدرك ساق العالة القيعيبالذق 
يشتغل ضمنه النموذج؛ فإذا ما أشار نموذجك التنبؤي إلى عدم وفاء طالب قرض ما 
بالتزاماته» ومن ثم حجبك القرض عنه. فلن تخسر أي شيء؛ وهكذاء سيكتب 50 في 
أعلى يسار الخانة داخل الجدول. وإذا تنبأ نموذجك بوفاء الشخص بتعهداته» ومنحته 
قرضاً على هذا الأساسء ولكنه فى نهاية المطاف. أخل بالتزاماته» فستخسر قيمة 
0- التي اقترضتهاء ومن قن متكت 85/000 فى أعلى يمين الخانثة ب وإذاننا 
تنبأ نموذجك بعدم وفاء الشخص المقترض بالتزاماته» ورفضت منحه القرض في 
وقت يمكن لهم مع ذلك؛. تسديد قرضهمء» فستفوت على نفسك فرصة ربح فائدة 
تقدر ب 5200 (وستكتب -5200.» في أسفل يسار الخانة). وأخيراًء إذا تنبأ النموذج 
بعدم وفاء الشخص بالتزاماته» ومع ذلك منحته القرض»ء فستحقق ربح فائدة تقدر ب 
0 (أسفل يمين الخانة). 

إن القيمة المتنبأة هي: (ر -1) 200 + (ر) 5000 - (رط -1) 200 - (ر©)0. 

ومن ثمء تكون نقطة القرار حيث كانت المحصلة التالية: 


(رظ -1) 200 + (ىر5) 5000- - (رم-1) 200- 


52 











وإذا ما أعدنا ترتيب هذه المعادلة وحلهاء فسنحصل على: 0.74-,5. وتكون 
تقطة القرار المربحة هي م: منح القرض. (توقع عدم وفاء الشخص بالتزاماته) بالنسبة 
إلى أي قيمة متنبأة 0.74 -.5. أو أكبر من ذلك. لاحظ كيف يختلف هذا عن فكرة 
افتراض لزوم تصنيف أي احتمال يزيد عن 0.5» باعتباره إخلالاً بتعهدات» كما تنقل 
ذلك مصفوفة الارتباك بالنسبة إلى معظم برمجيات الانحدار اللوجيستي. 

ولمزيد من الاطّلاع على ضمّ اعتبارات التكلفة في نماذج التصنيفء انظر عمل 
(2001,163) 1111 لصة ,عطذظ ,هع1181). وعادة ما تكون إضافة اعتبارات التكلفة 
إلى مصفوفة الارتباك من أجل البتّ فى النقطة الفاصلة» مباشرة عندما تكون للتكاليف 
و شقانت قبيرة تقذية ماخر كولسو الجطلة 1 به لضب لقعي سيان عر اليا له بير 
قيم إيجابية كاذبة وقيم سلبية كاذبة أو بين الحساسية والخصوصية» بهذا الشكل. وإن 
البتّ في مكان وضع الحدٌ الفاصل بالنسبة إلى اختبار صحة تشخيص جديد محفوف 
بالصعوبة» بما أن المرء مطالب بتحقيق التوازنات بين الاضطرابات التى تحدث 
عله بعال اللترس عط إلنيناى من عفن الشاكل الطية الخطررة» رون كاه 
الإخفاق في تحديد تلك المشاكل عندما يكون قائماً في حقيقة الأمر. 

منحنيات خاصية التشغيل المتلقي باعتبارها مقاييس مطابقة 


إن منحنى خاصية التشغيل المتلقي عخ مع اع 01212 ونع م0 نع كاععع 11) 
((8060)» طريقة مرئية للبت في أفضل النماذج المستخدمة في تصنيف 
الحالاات ويستخدم في شيافات تكون يها المحصيلة مدر واحد أو نعم/ لاء كما 
يقدم فيها نموذج ماء احتمالاً متنبّاً من احتمالات (نعم) أو1ظال بالنسية كل 
حالة. (وعلى مستوى التنقيب في البيانات» تعلة هذه لعينفاً ثنائياً 811 
(0135511167). إن العديد من الاختبارات الطبية هي مصنفات ثنائية» مثلاً). 107 
منحنى خاصية التشغيل المتلقي» معدل الإيجابيات الصادقة (خصوصية) على 
المحور لاء مقابل الإيجابيات الكاذبة (1 - خصوصية) على محور 2. إنها تصف - 
إذن - التبادلية (تجارية) بين الإجابيات الصادقة (الربح)» وبين الإيجابيات الكاذبة 
(التكلفة) - انظر الشكل رقم 3.3. 
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وفي هذا الشكلء يعد النموذج الممثل بخط 8) عموماً متفوقاً في التصنيف على 
ذلك الممثل بخط . ولكن يمكن أيضاً أن نرى أن لنموذج 4 أداء تنبؤياً أفضل 
(1*3::06]42006): حيثما كان المعدل الإيجابي الكاذب عال جداً (أكبر من 0.6). 


وإن منحنى خاصية التشغيل المتلقي؛ غالباً ما يُستخدم لفهم دقة الاختبارات 
التشخيصية لمرض ماء مثل فحص الدم. وبالإضافة إلى الاحتمال المتنبأ بشأن 
إصابتهم بالمرضء المحصّل عليه انطلاقاً من فحص الدم؛ يحتاج المرء إلى معلومة 
موضوعية منفصلة تثبت ماإذا كان الشخص فعلاً مصاباً بالمرض. ويدغعى هذا الأخير 
اامعايير الذهب» (51800350 6010) في أدبيات الطبّ. 
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الشكل رقم 3.3: أمثلة من منحئيات خاصية التشغيل المتلقي (2006 12:6614), 


ويلي نموذج مثالي بشكل وثيق محور لا على الجانب الأيسر وبعدها يتحول 
بالموازاة إلى المحور 7. ويقترب - قدر الإمكان - من أعلى يسار ركن مخطظ 
منحنى خاصية التشغيل المتلقي. إِنَّ المنطقة تحت هذا المنحنى هي حوالي 1. 
ويمكن أن يلي نموذج سيء ماء الخط ذا 45 درجة: ربس بهذا أفضل من ححط: آنا 
المنطقة التي هي تحت هذا الخطء فتبلغ 0.5. وهذا الاختبار التشخيصي: لايزودك 
بأي شيء مفيد. 
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ولتلخيص هذا القسم, غالباً ما يشكل التنقيب في البيانات نماذج تنبؤية» ويريد 
المختص في التنقيب في البيانات طريقة من الطرق من أجل تقييم دقة نموذج معين. 


أولا: يطبق المختص في التنقيب في البيانات نموذجاً تنبؤياء الذي اشْتْقٌ من 
بيانات التدريبء على بيانات أخرى (حالات أو ترصدات أخرى) خصصت باعتبارها 
بيانات اختبار. ويستخدم عالم التنقيب في البيانات مصفوفة ارتباك أو منحنى خاصية 
التشغيل المتلقي لفهم دقة النموذج في تنبؤ هدف ما. ويتمثل واحد من القياسات 
المهمة للتطابق أو دقة التصنيف في نسبة الترصدات المصنفة بشكل صحيح (أو في 
المقابل» معدل الخطأ الشامل). ولكن الباحث غالبا ما يرغب فى تحديد المعدلات 
الإيجابية الكاذبة» والمعدلات السلبية الكاذبة» وفي بعض الأحيان يستخدم هذه 
المعلومة» إلى جانب بيانات التكلفة» للبت في خفض القيمة الأكثر ملاءمة 
واستخدامها مع الاحتمال المتنبأ لدى تصنيف الحالات. 

تحديد تفاعلات إحصائية وتأثير عدم التجانس في التنقيب في البيانات 

وتتجلى إحدى الرغبات الأساسية في نموذج الانحدار التقليديء في تطبيق نمط 
الترابط أو الارتباط (01:6186108©) نفسه على كل الترصدات فى مجموعة بيانات ما. 
وعندما تحدث الحالة العكسية - أي عندما تضم كحرط اناك مجموعات 
ترصدات ذات علاقة مختلفة جدا بين المتغيرات - يكون بإمكان نماذج الانحدار 
إنتاج معاملات مضللة للغاية. ويعرف هذا - بشكل عامّي - بمشكل «التفاح 
والبرتقال»» أو على نحو أكثر تقنية بالتأثيرات غير المتجانسة 05ا560عع11»]60) 
(58:11615. على سبيل المثال» إذا كانت العوامل التي تتنبأً بنسبة التخرج بين طلبة 
كليات المجتمع» مختلفة للغاية عن العوامل المترابطة بالتخرج بالكليات الانتقائية» 
ذات التكوين الممتد لأربع سنوات» فسيسفر تقدير نموذج إحصائي وحيد بالنسبة إلى 
مجموعة بيانات تضم النوعين من الطلبة معاء عن نتائج مضللة. 

إن المشكلة لا تكمن فى وجود مجموعات مختلفة داخل مجموعة بيانات؛ 
لكون استمرار هذا الأمر على هذا النحو بشكل دائم» وإنما المشكلة تن شأعندما يكون 
لبتعض المجموعات الفرعية أو لبعض (00111516155) حالات داخل مجموعة بيانات» 
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أتواطاميتغرقة تعدا من الترابط نموم متف اخدماء أكتز من مجترعاة اعرف وتعرف 
إحدى الأمثلة المثيرة ب مفارقة سيمبسون (29180017 5025م0م1ذ5)» (وأحيانا بمقارقة 
يول - سيمبسون (23200 5 502م2ط 51 -م 1نالآ))» أو مفارقة الإدماج» أو المفارقة 
العكسية (1972 811/1). وقد تظهر مجموعتان من الترصدات في مجموعة بيانات» 
علاقة إيجابية بين متغيرين» اولا. ولكن عند تحليل مجموعتين معاً في النموذج 
نفسه. فإن اتّجاه العلاقة بين ا ولا تعكس الاتجاه. وقد يبدو ارتباط 36 سلبيا بلآا. 


ويوجد مثال في الجدول رقم 6.3). يقدم محصلات تجربة طبية مفترضة؛ تم 
جديدة تجريبية» ومنح آخرين المعالجة المعيارية. وتقارن الخانتان الأوليتان» 
محصلات المعالجة التجريبية» والمعالجة المعيارية للتجربة بشكل عام عبر 
الموقعين؛ فظهر بجلاء أن معدل البقاء على قيد الحياة كان أقل بكثير بين أولتك الذين 
يتلقون معالجة تجريبية. وإذا ما فحصنا هذين الخانتين بمفردهماء فسنخلص إلى أن 
المعالجة التجريبية أسوء بكثير من المعالجة المعيارية» ومن ثم» ضرورة التخلي عنها 


بالمرة. 
إجمالاً الموقع .4 الموقع 18 

معالجة معيارية معالجة تجريبية معالجة معيارية معالجة تجريبية معالجة معيارية معالجة تجريبية 
الرقم الإجمالى 11,000 1,1,0 100 110000 1,0 100 
عدد الموتى ‏ 5.950 19005 950 292.0 5000 5 
عدد الأحياء ‏ 5.050 105 50 10 5.000 95 
معدل البقاء 1/50 1/95 
على قيد الحياة ‏ 46/ 11( 5/ 1/10 / : 


المصدر: 1972 رطالزا8. 

ولكنء عندما ننتقل إلى فحص الخانات الأربع من ناحية اليمين» نجد في كل 
موقع من هذين الموقعين الفرديين» أن معدل البقاء على قيد الحياة» كان أكثر بكثير 
بين أولئك الذين يتلقون العلاج التجريبي. وتقترح هذه الملاحظة أن العلاج التجريبي 
أكثر فاعلية من العلاج المعياري. فكيف - إذن - السبيل إلى التوفيق بين هذا وبين 
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البيانات المجمّعة (0ع288768316)؟ والجواب عن ذلك يكمن فى تدبير التقنية 
التجريبية - في أغلب الأحيان - في موقع ذي نكال ان لست 1 من مايل لات البقاء 
على قيد الحياة بالنسبة إلى المجموعتين معا؛ في حين كانت تدار التقنية المعيارية - 
على نحو غير متكافئ - في موقع ذي معدلات أكبر بكثير من معدلات البقاء على قيد 
الحياة. وعندما يتم مزج البيانات» تختفي النسية العالية من معدلات البقاء على قيد 
الحياة المحصل عليها فى المجموعات التجريبية؛ أو بتعبير آخرء إن العلاقة السلبية 
المرضوذةاذات المتغيرين :بين تلقي الغلاج التجريبي:«واتمالات البقاء على قيذ 
الحياة» تتجه اتجاها عكسياء عندما نكيّف الموقع الذي يتلقى فيه الشخص العلاج. 


وتوجد حالة أقل حدة. ولكنها أكثر شيوعاًء تحدث عندما يبدو معامل انحدار 
مرصود بالنسبة إلى متنبئ من متنبئات 6 صغيراً أو عديم الدلالة إحصائياً. ويحدث 
هذا أحياناًء بسبب ارتباط كابلا ارتباطاً قوياً بالنسبة إلى مجموعة واحدة أو تجميع 
من الحالات داخل العينة» في حين قد تنعدم العلاقة» أو أي علاقة سلبية مع لاء 
بالنسبة إلى مجموعة أخرى ذات المتنبئ 76 نفسه. وإن استخراج متوسط هذين 
التأثيرين - كما يفعل الانحدار عند تحليل العينة بأكملها - يفضي إلى معامل صغير 
على نحو مضلل. 
وغالباً ما تكون مجموعات البيانات غير متجانسة على هذا النحوء غير أن الباحث 
لا يدرك عادة» المجموعات الفرعية أو تجميعات الحالات مسبقاًء ومن ثم» تظل 
مشكلة «التفاح والبرتقال» مشكلة متوطنة. ونتيجة لذلك» تقتضي خطوة أولية في 
تحليل التنقيب في البيانات» الرغبة فى تحديد المجموعات أو تجميعات الحالات» 
يذل تمكن بحت نا < مه ذلك حرم إذارة زا ريلك منفضلة بالسسة إلى كل 
مجموعة متميزة على حدة: أو إضافة شروط تفاعل تُتَمذْحٌ انحدارات مختلفة بالنسبة 
إلى كل مجموعة أو تجميع (2013 565008 لقة رتعقاء 8 ,لعصداء381). 
ويمكن لتقنيات تجميع عديدة من تقنيات التنقيب في البيانات» تحديد تجميعات 
الترصدات ذات العلاقات غير المتجانسة بين متغير أو مزيد من متغيرات ا وبين 
محصلة من محصلات لا. وقد طورروبرت هاراليك (113:8111 116ء1800))» وزملاؤه 
يقة يستعمل اهيدا دعا خطياً ولا خطياً (2007 2م113 لصة 111161 ). 
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كما يقدم ميلاميد وبريغرء وشون. حلا آخر» مود تجزؤ (05161082م12معء10) 
القيمة المنفردة. ولسوء الحظء إن هذه التقنيات ليست متاحة لحدّ الساعة» فى أي 
رزمة من رزمات برمجيات التنقيب في البيانات الأساسية. 


ويستخدم حل ثالث أكثر سهولة» تقنية تعرف بانحدار الطبقة الكامنة 64اة.1) 
(ممأووععوع 8 55ة01. أو نماذج تجميع الطيقة الكامنة 5]61نا[0) 01355)-13]626) 
(2100615. وتم استخدام تعبير طبقة كامنة لعدم إمكانية تحديد المجموعات غير 
المتجانسة داخل مجموعة بيانات» بواسطة متغير مقيس واحد 2/168510560 6ا5108) 
(»اطةتتةلا. (وإذا اختلف الرجال عن النساء في نموذج انحدار ماء أو إذا أظهر 
المبحوثون أو المستطلعون (86500206215) الشباب نمط ترابط مختلف بين 
المتغيرات» فبإمكان تحديد ذلك بشكل سهل نسبياًء ما دام أن هذه المتغيرات» هي 
متغيرات مرصودة واحدة). وعندما يتم تحديد المجموعات الفرعية في البيانات 
بطرق أكثر تعقيداًء نتصور أن للمجموعات الفرعية قيماً مختلفة على متغير غير 
مرصود (ومن ثم فهو «كامن)). فكيف يحدد المرء - إذن - هذه المجموعات 
الفرعية؟ 

تقدم الابتكارات الإحصائية (10201726005 5136561081)» رزمة برمجيات» 
تُدعى «الذهب» الكامن ((601.1 1.30686)» التي تنجز هذا النوع من التحليل على 
نحو واضح وسهل. وتوصف البرمجيات على موقعها الإلكتروني: (//:مااط 
/للحصطط.ل1ممغطع12/كاء 1001م /طام»ء. 1205م0 مص[ اده 151 ها5) . 

وغالباً ما يدعى هذا الموضوع بين علماء الإحصاء بنمذجة المزيج المنتهية 
(ع مناع 1400 عتسطاءءللة عالسلط)ء كما حدث في العقد الأخير» اوهناك تقدم كبير في 
تطوير هذه التقنية. وكتب (2009 12228 320 011155 0)). كتاباً 3 حول الأفكار 


الإحصائية النئن تحملها هذه الطريقة 

وبعد تحديد التجميعات المتميزة أو مجموعات الترصدات داخل مجموعة 
بيانات ماء قد يقرر باحث من الباحثين تحليل كُلَ التجميعات في نماذج منفصلة. 
ويمكن للتجميعات - بدلا من ذلك - أن تمثل بواسطة متغير اعتباري 710121081) 
(©1861:ة/اء ومصطلحات جديدة تنضاف إلى النموذج الذي يمثل تفاعلات بين 
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متنبئات تجميع» وبين متنبئات خاصة. كما يمكن لنموذج واحدء المؤلف من هذه 
المضطلحات التفاعلية أن نسب للأخل بعين الاعغبار تأثيرات'الميجموغات غير 
المتحانسة: 

غابات تعبوية وعشوائية 

عادة ما تكون النتيجة النهائية في النموذج الأصلي الإحصائي التقليديء انحداراً 
وحيداً أو نموذجاً مماثلاًء يلخص العلاقات في مجموعة بيانات ما. قد يمرّ ذلك 
النموذج عبر سلسلة من التحسينات والتعديللات» ولكن في النهاية» يمثل نموذج 
بمفرده أفضل ما يمكن لباحث من الباحثين الإتيان به. 

وفي المقابلء يتبّع - في الغالب - تحليل من تحليلات التنقيب في البيانات» 
منطقاً مختلفاء مولّدين العديد من النماذج التنبؤية المختلفة» ومزج نتائجها لتقديم 
أفضل تنبؤ ممكنء وهي عملية تعرف في مجال التنقيب في البيانات باسم تعليم طاقم 
منسجم الأجزاء (128متدع.آ ع[ااممعقصط) (2006 ع811). وثمة استراتيجيات بديلة 
داخل التنقيب في البيانات لخلق هذه النماذج المتعددة ومزجهاء ومنها استراتيجية 
التعبئة» (وينبغي عدم خلطها بتوزيع الخانات (8102108))» التي تتعامل مع مجموعة 
بيانات كما لو كانت ساكنة» وليست عينة. إنها تستمد عينات عشوائية متعددة مع 
استبدال (136612626مع15 2177115 من مجموعة البيانات. ويناسب تطبيق التنقيب فى 
البيانات» نموذجاً لكُلَ عينة عشوائية من تلك العينات» وانطلاقاً من ذلك الو 
يَحسبٌ قيمة متنبّأة لمتغير النتيجة (©7/851861 26زهء]010). بالنسبة إلى كَل حالة أو 
ترصد. ويمكن إيجاد تنبؤات مأخوذة من تلك النماذج المختلفة» بغية تحقيق أفضل 
تنبؤ ممكن. إما لمجموعة البيانات المنفصلة, أو للترصدات الجديدة المستخلصة 
من العينة. 

وثمة مقاربة ذات الصلة» تعرف باسم الغابات العشوائية (5اوع:ةه1 2د1]3200). 
تستعمل لجمع نتائج أشجار قرار متعددة. وتتمثل الفكرة الرئيسة في توليد نماذج 
شجرة متعددة» وإيجاد معدل نتائجها للحصول على أفضل تنبؤء كما يتجلى المظهر 
الجديد للغابات العشوائية في فرض الباحث مجموعة فرعية مختلفة من التنبؤات» 
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لضمها في كُل نموذج» ومن ثم عدم 7 تمكين أي نموذج بنية متطابقة أو مضمون مطابق 
للنموذج السابق. وبعد ذلكء. يتم مزج التنبؤات المتنوعة المحصل عليها من تلك 
النماذج المتعددة للحصول على أفضل تقد 


إن الغابات التعبوية والعشوائية هى إجرءات اختيارية داخل (1818) التى تنطق 
«غامب برواء والعديد من مجموعات (51011165) التنقيب فى البيانات التى نوقشت 
آنفا. سيتم تقديم أمثلة عنها في فصل لاحق. 

إن إحدى الأسباب الجوهرية لممارسة التنقيب في البيانات وفي تقييم نماذج 
متعددة» وإيجاد متوسطات نتائجهاء تكمن فى إمكانية أن يكون فى بعض الحالات» 
بناء النموذج تابعا للمسار لايك . وفي أنواع متعددة من نماذج التنقيب 
في البيانات» تفحص خوارزمية ما كل سمة» لاستكشاف النموذج الذي يشكل التنبؤ 
الوحيد الأكثر قوة لهدف ما؛ فتحتفظ بالنموذج الأكثر قوة» وتعيد البحث في التنبؤات 
المتبقية» لانتقاء المتنبئ الثاني من حيث القوة» وهكذا بالنسبة إلى العديد من 
التكرارات (1]672]4085) إلى أن تنتقي مجموعة من السمات أو المتغيرات التي تعظم 
بشكل جماعيء القوة الشاملة للنموذج. 

وهذه طريقة مستعملة على نطاق واسعء ومناسبة في اختيار المتغير أو السمة؛ 
على الرغم من أنْ لها شركاً محتملا . لقد اختارت هذه الخوارزمية - ذات مرة - متنيثاً 
أولآ لإدخاله فى النموذج؛ مما زاد من احتمال اختيار بعض المتغيرات باعتباره 
المتنبئ الثاني مقارنة بمتنبئات أخرى, فمن غير المرجح. مثلًا أن تختار الخوارزمية 
متغيراً ما - باعتباره المتنبئ الثاني - المرتبط بشكل كبير بالمتغير الأول الذي اختارته» 
بما أن إضافة متنبئ ثانٍ وثيق الصلة» لن يحسّن القوة التنبؤية كثيرا. وبتعبير آخرء إن 
اختيار المتغير الأول - إلى حدما - يحدد مساراً من المسارات بالنسبة إلى التكرارات 
المتبقية للبرنامج» ومن تبعية المسار. 


وتقتضي تبعية المسار تجاهل بعض المتنبئات القيمة أو إزالتها في أي نموذج من 
النماذج. وبهذاء سيكون من المنطقي تقييم العديد من النماذج المقيدة باختيار متنيئات 
مختلفة» ومن ثم تجنب إمكانية تجاهل بعض المتنبئات» وهذا ما تنجزه الغابات 
النشوائية. 
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ويضم منطق ذو صلةء إجراءات التنقيب في البيانات التي تشمل تقديرات 
تقريبية» تلتئم في حل أمثل. واستناداً إلى موقع «التخمين» الأول. إن إحدى نقاط 
ضعف هذه الخوارزمية» يتجلى في إمكانية التئام هذا البرنامج أحيانأء في حل محلى 
أمثل, الذي لا يعد في حقيقة الأمرء الحل الأفضل إجماليا. 


ويفهم هذا بيانياً 1211م 672)؛ إذ إن في الشكل رقم 4.3 يمثل محور لا قياس 
خطأ ماء ومن ثم. فالبرنامج يبحث عن حل يتميز بأدنى قيمة ممكنة على محور لا. 
كما يمثل محور 236 قيمة مَعْلم ما تم تقديره. أما المنحنى» فيمثل المسار الذي يمكن 
لبرنامج ما اتباعه في البحث عن حل من الحلولء المتمثل في أفضل تقدير ل 76. وإذا 
كان التخمين أو التقدير الأول للبرنامج موجوداً على الجانب الأيسر من الرسم البياني 
أو المخطط (2128:810) - عند قيمة منخفضة ل 2 - فإن عملية مكررة» تختار كَل 
حل متعاقب منخفض انخفاضاً طفيفاً على محور لاء سيتبع الخط الأسفل إلى أن 
تصل إلى الحدّ الأدنى العام (19ا151/! 10681 6): أي أفضل جواب ممكن. ولن 
ترك البخط إلى الأعلى غندما يتحول الخط:ضعودا لأنها مبزميحة على :مواضلة 
البحث عن قيم منخفضة ل ل والتوقف عند عجزها عن إيجاد قيمة أقل انخفاضاً. 
وتتوقف الخوارزمية عند القيم الأدنى ل لا» أي الحدّ الأدنى العام» حيث تقدير >1 هو 
حوالي -4. 


ولكن إذا كان التخمين أو التقدير الأول للبرنامج موجوداً على الجانب الأيمن 
من المخطط - عند قيمة مرتفعة ل 7 (1.5 مثلاً) - فستتجه العملية المتكررة اتجاهاً 
اتنا (عم100730-510) نحو حد أدنى محلى (لتاصتط 811 أوءم.1). ولأن 
الخوارزمية دائماً ما تحاول تخفيض لاء فلن ترجع إلى الخلف في الجانب الأعلى 
للخطء بعد بلوغها أول نقطة منخفضة حوالي 0.3 -كا. ومن ثمء ستفقد «الوادي» 
(9/8116) المقبل حيث إقامة الحدّ الأدنى العام. وتستقر بعدها في الحدّ الأدنى 
المحلي (حوالي 7-0.3)) «معتقدة» خطأ في كون ذلك هو أفضل حلء أي تقدير 76 
الذي يقلص ل إلى الحدٌ الأدنى. 
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الحد الأقصى العام +1 الأقصى الحلي 





المعدل الإيجابي الصادق 





الشكل رقم 3 الحد العام والحد الأدنى المحلي. 


وتتجلى إحدى السميات المضادة لهذا الشكل ذي الطرق المتكررة» فى تقدير 
نماذج مختلفة متعددة - بحيث يبدأ كُل واحد منها عند نقطة بداية مختلفة جداً 
(تخمين أو تقدير أولي) - وفي تجميع التنبؤات من كل هذه النماذج المختلفة لتحديد 
تنبؤ نهائي لشخص ما. ولن يمنع هذا الإجراء بعض الحلول من أن تكون مثالية فرعية 
(لأنها استقرت في حد أدنى محلي)» ولكنه يضمن وجود حظوظ أخرى عديدة لبلوغ 
الحل الحقيقي أو المثالي (الحد الأدنى العام). وستكون هي المهيمنة. 

إن «غامب برو» (280 13412)» ورزمات برمجية أخرى من التنقيب في البيانات» 
تساك المستخدم عن عدد نقاط البداية المستخدمة. وبعد ذلك» تدير نماذج منفصلة» 
تبدأ عند نقاط بداية مختلفة للغاية» لضمان عدم الانخداع بحدود أدنى محلية. وتتمثل 
التكلفة - عادة - في ضرورة إدارة نماذج عديدة عوض نموذج واحد, مما قد يستغرق 
وقتأ كثيرأ لمعالجة مجموعات بيانات ضخمة. 


ولتلخيص هذا القسم حول الغابات التعبوية والعشوائية» اكتشف الباحثون الذين 
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يشتغلون داخل النموذج الأصلي للتنقيب في البيانات» تحليل البيانات عدة مرات» 
مستخدمين عينات مختلفة قليلاً» أو مجموعات مختلفة من المتنبئات» أو نقاط بداية 
مختلفة. وكل تحليل فردي يقدم تقديراً ماء ويوجد التنبؤ الأكثر قوة ودقة» في مزج 
تلك التقديرات. ولاستخدام قياس ماء نقول إن قرار اللجنة هذاء ويُزعم أن 
«التصويت»». أو إيجاد المعدل. أو في بعض الأحيان. مزج نماذج متعددة (معروفة 
أيضاً بتعليم طاقم منسجم الأجزاء)» يقدم تنبؤاً أكثر دقة من الاعتماد على نموذج أو 
تحليل واحد. ومع ذلكء يقوم تكرار تحليلات على هذا النحو. ومزج - بعد ذلك - 
نتائجه» على حواسيب فائقة السرعة» وواسعة:. إذ لها القدرة على حساب نماذج عدة 
مرات» وهو شرط ضروري للعديد من طرق التنقيب في البيانات. 


محدودية التنبؤ 

شر يعاوسياة بارؤان قن التقيث فى الباناعة فض الدب سيا حول تحدودية 
هذا التنقيب في البيانات والتنبؤ. نسيم وي طالب (طع181 0185طاء 1لا تصزووة!7), 
وهو محلل مالي» ومنمذِج إحصائي. يعد مؤلف كتاب ‏ هنلا إءه/8 ©:2005(17). 
وكتاب (2007) 114110077155 برط 700164؛ كما ألف نات سيلفر (1762ز5 6غ2[3), 
وهو مطور برمجية تنبؤية فى «البيسبول»» ومحلل رائد فى استطلاعات الانتخابات 
(انظر مدونة 11/1 0000 عنم ل 17165 :101/1 د كتاب 04714 [/512714 17/16 
عزم8 772 (2012). 


ويقدم المؤلفان كلاهما نقاطاً تحذيرية» مثل 

« ليس لكل الظواهر الطبيعية أو الاجتماعية بنية أساسية» يمكن استكشافها. 
عموماء كلما كانت نسبة الصوت فى الإشارة (518081)» ازدادت نسبة 
تضليل الإفراط فى التدريب لمختصيى التنقيب فى البيانات. وقد (ينخدعون 
بالعشوائية»؛ فيرون سراباً» أو يجدون بنية غير موجودة. (من أجل ذلكء فإن 
الصلاحية المتبادلة» والمضاعفة» مهمتان جدأ). 

إن النظم الدينامية المترابطة جداً» تتأثر بأسباب متعددة» بحيث يمكن إثارة 
بعضهاء حلقات تغذية راجعة» قادرة على إنتاج تحول غير متوقع على نطاق 
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© 0115210122060 اغع5 ااجدع8 صا كعطا71ا 5 لاع نأتاظ 012 د11 عط 5وع100») 
(35ئد1 ال عرضاً شهير» يتناول نظرية الفوضى (:116017 01305))» وهى 
نظرية تُعنى بالنظم اللا خطية التي تُنْسَبُ إلى إدوارد لورينز 4ه:«84) 
(1.05602. وكما يقترح المجازء يمكن لتحول ما على نطاق صغير في مكان 
ماء إثارة نتائج على نطاق واسع جداً في مكان آخر. وقد يفهم من هذا 


المقابل» يمكن تنبؤ النظم اللا خطية مثل الطقس في حدود معينة (حسبما 
يرى سيلفر (511767)) » ولكن فقط ضمن إطار زمني قَبَيْل الحدث المتنباً. 
وإن التنبؤات التي تمت في وقت سابق من هذاء لن تكون دقيقة بشكل كامل. 
وبتعبير آخرء لا يستطيع المرء اقتفاء أثر أي إعصار حقيقي في رفرفة أجنحة 
الفراشة (أثر الفراشة). وبإمكان المرء تصور العلاقة» ولكنه يعجز عن نمذجة 
ذلك بالأمس البعيد. ومع ذلك يمكن تنبؤ الإعصار بشكل دقيق» انطلاقاً من 
أدلة يتم جمعها قبل بضعة أيام من حدوثها. 

« وتُظهر أنظمة طبيعية أخرى انتظامات (16813216065): ولكنها بعيدة عن 
فهمنا التنبؤي الحالي. وإن توقيت الزلازل وشدتهاء مثل من الأمثلة التي 
يصفها سيلفر, إذ يمكننا تحديد بعض الأنماط حول حجم الزلزال» ولكن لا 
يمكننا التنبؤ - على نحو دقيق - بزمن حدوث الزلازل الكبيرة. إن النمط - 
ذا وجد واحدا أضلاً - بعيد المثال. 


© وتعد بعض الظواهر الاجتماعية غير مناسبة للتنبؤء لأن الفاعلين المشاركين 
فيهاء يفحصون بيئتهم. ويردون على أية تلميحات من تلميحات التغيير» 
انطلاقاً من الوضع الراهن. وفي ظل تلك الظروف - وبمجرد إدراك تلميح 
من حركة - مثلآ» أخذت أسعار الأسهم في الارتفاع أو الانخفاض - سيتوقع 
العديد من الناس أن السوق يحول اتجاهه. فينضمون إلى الفريق الرابح. وقد 
يصير - إذن - للحركة توجه نحو إشباع الذات ومنلا ان5 © اء5) 
(إعطمه: بما أن مزيداً من الناس تشترئ الأسهم أو تبيعها. وفي هذه 
السياقات المتقلبة» يعد سلوك البارحة متنبئع ضعيف لتصرّف الغدء بما أن 
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المشاركين قد يكسبون مالياً من توقع تغيير في الانّجاه. وفي هذا السياق» 
يمكن لعقلية القطيع تقويض التنبؤ. 

© وفي سياقات أخرى - مع ذلك - يمكن لآراء جماعة من المواطنين منافسة 
تنبؤات الخبراء؛ فتنبؤات الأشخاص حول العديد من القضاياء كثيراً ما يفوق 
تقديرات معظم الأفراد. من أجل ذلك. غالباً ما تنجز «أسواق» المعلومات» 
حيث يراهن العديد من الأفراد على التتائج» ما يتنبأ به صناع القرار 
ونستشيرهم. 

* وغالباً ما تكون لدى الخبراء ثقة مفرطة بالنفس بشأن تنبؤاتهم. وعلى نحو 
مماثل» يميل الأفراد الذين لهم رهان في وضع راهن ماء إلى إهمال حقيقة 
خطر التغيير أو التغاضى عنه. 

إن أهم نقطتين حاسمتين لهذين المؤلفين - في رأبي - هما كالتالي: 

يجب على أي تنبؤ أن يكون دوماً مصحوباً باحتمال أو فاصل الثقة التى تمثل 
القك قفن العنيق. 

« وَإنْ النتائج المستبعدة إحصائياً - وإن كان ذلك نادراً - تحدث بكل تأكيد. 
ولا بد من تنبؤها إذن. والتخطيط لها. وستحدث حالة واحدة فى المليون 
عند نقطة ما. ويشير طالب (18165) إلى هذه الأحداث بعبارة البجعات 
السوداء (51:80 عا813). ويتناول تأثيرها المدمر فى الناس الذين يتخذون 
قرارات» مدعين عدم حدوث النتائج النادرة [تحطناكياً. وتكمن إحدى 
الأسباب وراء انهيارات السوق. وحالات الإفلاس» في ميل صناع القرار 
المَهَرَّةِ كمياًء إلى التصرف كما لو أن الأحداث الأكثر احتمالاً هى فقط التى 
سوداء» وهو حدث مستبعد. 


البيانات الضخمة ليست بالمرة ضخمة بما فيه الكفاية 


إن الصورة القن رسمناها عن التنقيب فى البيانات» تقترح مزج قوة الحوسبة 
القاسية (1ع/201 10]1285م0020) 81016) ومجموعات بيانات متشبة جد تمكن 
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متخصصو التنقيب في البيانات من استكشاف البنيات في البيانات التي لم يتم 
الإفصاح عنهاء من خلال تطبيق المنهجيات الإحصائية التقليدية على مجموعات 
البيانات المؤلفة من عدد أصغر من الحالات. إننا ندعم هذا الطرحء غير أنه مهم أيضاأ 
الاعتراف بمفارقة تواجه متخصصى التنقيب فى البيانات باستمرار»ء وتشكل 
مشروعهم بأكمله؛ أي إنه حتى مجموعات بيانات العلوم الإنسانية الكبرى - مثلاً 
خمسة ملايين شخصاًء ملفات تعداد لعدة سنوات متاحة من مسح المجتمع الأميركي 
(/15لا5 001210111139 12611631 )» ليست كبيرة بما فيه الكفاية لتمكننا من بحث 
شامل وحصري في البنية» بل إن الحواسيب الكبرى والفائقة السرعة نفسهاء تجد 
تفن العهام السجررية منحية العرامن: 

إن إحدى نتائج هذه المقارنة تتجلى في أنَّ التنقيب في البيانات» كثيراً ما يحتاج 
إلى وضع افتراضات مبسطة كي تكون الحلول للمشاكل ممكنة, أو لانتقاء مجموعات 
فرعية من المتغيرات» لأن التنقيب في البيانات نفسه. لا يمكنه التعامل مع كُل 
القياسات المتاحة في نموذج واحد. وإذا ما أخذنا بعين الاعتبار المعالجة الحسابية 
(28انامد00) الضخمة؛ ومصادر البيانات المتاحة» فهل يحتاج - مع ذلك - 
التنقيب في البيانات إلى تسوية أو اختصار النفقات أو إيجاد طرق مبتكرة للتقدير بدلاً 
عن قياس الأشياء على نحو مباشر وشامل؟ 

ويمكن لتجربة فكرة ما أن تبين مكمن الخطورة. تصور حالة من الحالات التي 
يكون لدينا فيهاء هدف ثنائي (نعم/ لا)» أو متغير تابع» وحددنا عبر عملية من عمليات 
البحث الاستكشافي أن أخذ 10 متغيرات أو سمات معاًء يمنح تنبؤاً جيداً لهذا الهدف 
ذي ثنائية نعم/ لا. والآنء لنفرض جدلا أن كلاً من هذه المتنبئات العشر (10) تأخذ 
قيماً من 0 إلى 9. (ولنأخذ, مثلا متنبئات مستمرة مثل العمر أو الدخل» ونقسم كل 
واحد منها إلى 10 خانات؛ محولين كَل منها إلى متغير عادي ذي 10 قيم ممكنة). 


وافتراضاًء يمكن للمرء تشكيل جدول مكون من صف «(1801) لكل مزج ممكن 
لمتغيرات أو سمات التنبؤ ذي القيم العشرة. وكل حالة من هذه الحالات أو الترصدات 
في مجموعة بيانات تدريب» يمكن حلهاء بحيث تنتهي في نهاية المطاف في العصر 
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الواحد الذي يمثل قيم تلك الحالات على 10 متنبئات. وبعدما يتم حل كل بيانات 
التدريب على هذا النحوء فإنه يصير بالإمكان عد نسبة الأجوبة بنعم بالنسبة إلى ذاك 
السطر 

يمكن استخدام هذا الجدول من بيانات التدريب» بعد ذلكء باعتباره نموذجاً 
تنبؤياً. وللتنبؤ بالهدف (نعم أو لا) بالنسبة إلى كُلَ حالة جديدة في عينة اختبار» ما 
على المرء إلا البحث في الجدول عن العمود الخاص الذي كان يوافق نمطا فردياً من 
المتغيرات المستقلة بالنسبة إلى تلك الحالة الجديدة أو الترصد الجديد. (مثلاء 
ابحث عن السطر الخاص بالرجالء الذين تتراوح أعمارهم ما بين 270,65 وأدخلهم 
ما بين 5801,57516 القاطنين في بريطانيا الجديدة إلى آخره. بالنسبة إلى 10 من 
متغيرات شخص ما. إن نسبة حالات «نعم» في ذلك العمود. ستقدم إذن الاحتمال 
المتنبأ «لنعم» لحالة جديدة خاصة في بيانات الاختبار» وهذه العملية من البحث 
يمكن إعادتها بالنسبة إلى كُلَ حالة في ملف البيانات الجديدة. 


لماذا لا يكون هذا النوع من استراتيجية تنبؤية تجريبية شاملة عملياً مع البيانات 
الضخمة؟ لنتأمل فيما يسميه مختصو التنقيب في البيانات حيز المقياس 
(ععةم5 الاعصاء ‏ ناكوء31): حجم الجدول الضروري لتمثيل كل التركيبات 
(0012612311015)) للمتغيرات العشرة (10)» بحيث يحتوي كُلّ منها على 10 قيم» 
وقد تكون ''10 من حيث الحجم: عشرة مليارات عمود إجمالياً. ولنتأمل أيضاً قدر 
بيآانات الندريت الضرورية» ببحيث تكون (مغلاً) ماثة خالة أو ترضد» متاحا بالتسبة إلى 
كُلْ عمود داخل الجدول الذي انطلاقنا منه. يمكن عد نسبة الأجوبة بنعم بالنسبة إلى 
بيانات جديدة. وقد يحتاج المرء إلى مجموعة بيانات تدريب بمقدار مائة مرة لعشرة 
مليارات حالة - تريليون حالة - لملء الجدول بما فيه الكفاية للسماح باستراتيجية 
بحث تجريبية بشكل بحت. وبما أن لدينا نقص في علم الفلكء فإنه من غير المرجح 
التعامل مع استراتيجية قياس مباشرة وشاملة بالنسبة إلى مشكلة متخيلة لعشرة 
متغيرات» بحيث يملك كُلَ واحد منها 10 قيم. 
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إن ما تنوي هذه التجربة الفكرية الإفصاح عنه. هو أن التنقيب في البيانات يواجه 
جهة أخرىء إن للتنقيب في البيانات استراتيجيات عدة» تتجنب بنجاح هذه المشاكل» 
وتمكن طرق التنقيب في البيانات» تحليل البيانات ذات مئات المتغيرات بنجاح. 


© أولا: يضع التنقيب في البيانات أهمية كبيرة على عملية تقليص عدد 
المتغيرات التي تدخل في إطار أي نموذج» وتشمل إحدى المقاربات» انتقاء 
السمة (102]ء5616 1:68]06): عملية الفحص عبر أعداد هائلة من المتغيرات 
لاستكشاف المجموعة الفرعية الصغيرة الأكثر قوة لتنبؤ هدف ماء وإبعاد 


الباقى. 
«ووته . جية ثانية» تمزج بعض متغيرات التنبوٌ إلى مؤشرات» ومقاييس» 
ومعاملات (1801055)» وهى عملية تدعى استخراج السمة عتتطوء1) 


. 121107 


© أما المنهجية الثالثة» فتتجنب حيز قياس ضخم. من خلال إدراكها بأن حالات 
المزج الممكنة لقيم المتغيرات لن تكون ذات أهمية عملياً في المستقبل؛ إما 
لعدم وجود العديد من الحالات مع ذلك المزج الخاصء أو لأن المرء يمكن 
أن يحصل على تقديرات جيدة لتأثيرات المتغيرات الفردية دونما أخذ بعين 
الاعتبار كل تفاعلاتها أو حالات مزجها الممكنة للقيم. 

© تقسيم البيانات (108ه22111010 1813) (أو أشجار القرار) هو مثال من 
الأمثلة» وتبحث هذه الطرق عن التفاعلات الإحصائية بين المتغيرات» 
ولكنها لا تأخذ بعين الاعتبار بشكل شامل حيز القياس بأكمله مع ملايين 
تفاعلاتها أو خلاياها. إنها تشتغل - عوضا عن ذلك - على متغير واحد تلو 
الآخرء باختيار» في الأول المتغير الوحيد الذي يقسم البيانات بشكل 
أفضلء على كُلَ لا. ثم إيجاد - بشكل تكراري - متغيرات إضافية لتقسيم 


مزيداً من البيانات. إن هذه التقنيات تجد - دون شك - تفاعلات ذات أهمية 
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من حيث التنبؤ ب لاء ولكن من خلال البدء بمتغير واحد تلو الآخر. 
سيحددون. ربماء مائة مزج مهم من قيم متغيرات (أو تفاعلاات)» بدل 
مليارات. إن طرق الشجرة أو طرق التقسيم العوديء تنتقي مجموعة فرعية 
من المتنبئات والتفاعلات انطلاقاً من عدد أكبر من المتنبئات والتفاعلات 
الممكنة. 

© الشبكة العصبية تلعب النماذج دوراً مماثلاً» إذ يمكن أن تدمج تفاعلات 
معقدة بين متنبئات ما في نماذجهم التنبؤية على نحو آلي» من دون أن يكون 
لدى محلل البيانات حاجة إلى تحديد تلك التفاعلات الأخرى التى أتت فى 
وقت مبكر. 

© وأخيراً تستفيد بعض الطرق من حقيقة إمكانية تقليص حيز قياس ضخم 
تقليصاً حادا» إذا ما وضعنا افتراضاً مبسطأًء أي إن كل متغير يؤثر فى متغير 
تابع» بمعزل عن كُل متغير آخر أو - على نحو أكثر دقة - إن المتنبئات 
لا تهم. وتعد الطرق التي تلي هذا الافتراض المبسّطء بما في ذلك مصنف 
بايزن الساذج (01355156) صوزوعء:ز82 2[3106) (الذي سيتم مناقشته في 
فصل لاحق»)» دقيقة إلى حد ما فى بعض السياقات. 


ولنلخص فكرتنا بخصوص أن «البيانات الكبيرة» ليست كبيرة بما فيه الكفاية». 


لقد بدأنا بالإشارة إلى أن طرق الحضر في البيانات؛ يمكن - مبدئياً - أن تتبنى منهجية 
«شاملة» لاستكشاف بنية وتنبؤء من خلال - مغلاً - دراسة كل تفاعل ممكن بين 
المتنبئات» أو من خلال استعمال كُلَ متنبئ متاح. كما استخدمنا تجربة فكرة» لبيان 
عدم إمكانية استراتيجية شاملة في الغالبء باعتبارها أمراً عملياًء لأن عدد حالات 
المزج أو التفاعلات بين المتنبئات» تصبح كبيرة فلكياء بل كبيرة جداً إلى درجة عدم 
حيازة أي مجموعة: بيانات حالات كافية لتناول كل حالات المزج. ولما واجهت 


طرق التنقيب في البيانات ذلك» أصبحت تتبنى استراتيجيات بحث غير مستنزفة. 
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وهي لا تجرب عادة كُلَ الاحتمالات» على الرغم من أنها مازالت تجرب نماذج 
عديدة ممكنة. وعيلياه يقلص التنقيب في البيانات حيز القياس أو عدد الاحتمالات 
المقدرة. وهذه ناجزة بطرق شتى: 
1. بواسطة اختيار ابتداء» مجموعة فرعية من متنبئات مهمة من قائمة أكبر - اختيار 
سمة. 
2. من خلال مزج متغيرات داخل مقاييس (502165)» أو مركبات (000051]65©) 
- استخراج سمة. 
3. من خلال أحياناء تجاهل تفاعلات بين المتنبئات للحصول على تنبق أكثر 
بساطة» ولكنه مع ذلك أكثر دقة. 
4. من خلال البحث عن تجميعات لحالات ممائلة في البيانات» وتحليل كل 
تجمع أو مجموعة بشكل منفصل. 


1[00 


الفصل الرابع 
مراحل مهمة في مشروع 
التنقيب في البيانات 


نظراً لماسبق أن قدمناه للبيانات الضخمة القليلة خداء حيث أشرنا إلى التحديات 


التي تضعها بيانات عالية الأبعاد. يمكن الآن مناقشة الكيفية التي يتم بها الشروع في 
تحليل التنقيب فى البيانات بشكل إجمالى. هناك ستة خطوات منفصلة من حيث 
التصور: 


.1 


البت في إمكانية معاينة البيانات. وكيفية التعامل مع هذه المعاينة قبل تحليلها؛ 


. بناء مجموعة غنية من السمات أو المتغيرات؟؛ 
. اختيار السمة واستخلاص السمة؛ 


. تشكيل نموذج ما أو عملية تناسبية باستخدام قائمة أصغر من السمات على 


التثنبت من ذلك النموذج أو إقراره من خلال بيانات الاختبار؛ 
. تجربة طرق بديلة للتنقيب في البيانات» وربما مزج العديد منها (طرق مجموعة)» 


بغية استكشاف إمكانية تقديمها لحل أفضل. وفي هذا الفصلء نقدم مزيداً من 
التفصيل بشأن الخطوات الأربع الأولى. 
متى تتم معاينة البيانات الضخمة؟ 
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ينحنت علماء النقين كن التنانات أسياناء تسليا مجموعةريانات كيرة برهفاء 
[اتعتدونعوما عن ذلفه إل انقواط عن دوف صدوة من اسالات مني 
والشروع في تحليلها. وتُعزى إحدى أسباب القيام بذلك إلى كون الحاسوب السريع 
نفسه قد يعمل لساعات في تحليل ملايين الحالات؛ في حين إن التحليل المطابق 
الذي أجري على عينة عشوائية» ومن ثم عينة تمثيلية ل 20,000 حالة مثلًء قد تكشف 
فقط عن الأنماط نفسها وتعمل بطريقة فائقة السرعة. وفى هذا المثال» تعد عملية 
معاينة البيانات الضخمة» مجرد طريقة من طرق تسريع التحليل» وتجنب إمكانية 
تحطم الحاسوب بسبب الذاكرة غير الكافية. (وقد تتمثل استراتيجية بديلة في إنجاز 
تحليل أولي باستخدام عينة عشوائية أصغرء وتحليل مجموعة البيانات برمتها في 
الآخر»ء بعدما يكون المرء قد بت في المتغيرات والنماذج القائمة على بيانات عينة 
أصغر). 

ولمةانيى ثاق وتحتات ذا مو7وزاء اقتطافهتعينة من مجتوعات تناناك 
كبيرة» يدث عندما يكون ناحث مامهعما حو أحدات أو حالات ثادرة تسيا ولهذا 
ربما يريد محلل ما - مثلاً - اكتشاف المعاملات الاحتيالية من خلال تحديد نمط 
مميز تشترك فيه تلك المعاملات. وقد تحتوي هذه القاعدة من البيانات لدى باحث 
ماء ملايين المعاملات الشرعية (مشفرة مثلا بشفرة 0 بالنسبة إلى المتغير الهدف)» 
ولكن قد لا يحدد المعاملات الاحتيالية (مشفرة بشفرة 1) إلا ألفا منها فحسب. 
وبتعبير آخر» هناك نسبة غير متوازنة (1,0051060) للغاية من الاحتيال فى المعامللات 
الشرعية؛ ولكن هذه «إبر في كومة قش»» مهمة جداً. ش 


وإن بعض تقنيات النمذجة والتصنيف لا تشتغل بشكل جيد مع التوزيعات غير 
المتوازنة المطبقة على المتغير التابع. وإن نموذج انحدار لوجيستي ماء مثلاء الذي 
يواجه محصلات ذات تسع قيم صفر بالنسبة إلى كُل محصلة ذات قيمة صفر يمكن 
أن يبنى نموذجاً يتنبأ بالأصفار بشكل جيد جداًء ولكن على حساب فقدان العديد 
هاه تداكون النموذج العام - نسبياً - مناسباً جداً بتصنيفه 95 في المائة من الحاللات 
بشكل صحيح. ولكن مع ذلك قد يسيء تصنيف نصف حالات المعاملات الاحتيالية. 


ولتجنب هذا النوع من المشاكل» من الأفضل - عندمايتم التركيز على محصلات 
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نادرة نسبياً - ضمّ كُل الحالات (مثلاًء الاحتيال) النادرة» واستنباط عينة عشوائياًء من 
النوع الآاخر من الحالات الوافرة» للحصول على معدل قريب من 1:1 لهذين النوعين 
في مجموعة البيانات الجديدة. إن تقنيات التنقيب في البيانات ستقوم بتنبؤ أو تصنيف 
أفضل بكثير» بالنظر إلى وجود هذه المجموعة من البيانات المتوازنة نسبياء مقارنة 
بإمكانية تطبيقها على عينة غير متوازنة للغاية. إن المعاينة قبل التحليل؛ أمر ضروري 
في هذا النوع من السياق. 

بناء مجموعة غنية من السمات 

قد يبدو من المفاجئ أن يبدأ علماء التنقيب في البيانات بشكل روتيني» مشروعاً 
ما من خلال تشكيل متغيرات جديدة» حتى لو سبق أن كان لمجموعة بياناتهم متغيرات 
أو سمات عديدة. في الواقع» يقضي بعض علماء التنقيب في البيانات وقتاً أكثر في 
تشكيل مجموعة غنية من السمات. مقارنة بما يقضونه في تشغيل النماذج. ويرجع 
ذلك إلى كون نجاح النمذجة» يقوم على امتلاك السمات الصحيحة. وأن الباحث قد 
لا يكون واثقاً مسبقاً بمتغيرات التنبؤ التي قد تكون تنبؤات أو مصنفات قوية. ومن 
الحكمة بداية أي مشروع من مشاريع التنقيب في البيانات انطلاقاً من تشكيل متغيرات 
جديدة» مع العلم أن قائمة المتغيرات يمكن تخفيضها بالتدريج لاحقاء وترك فقط 
المتغيرات التي يتبين أنها متنبئات قوية لهدف ما أو لمتغير تابع» أو أنها تعمل بشكل 
جيد في تحليلات التجميع (5ع2195مث نم15 ©). أو أنها مصنفات (1355176155©). 

وعملياًء يقوم علماء التنقيب في البيانات: 


© باستشارة ما يسمى خبراء الميدان حول العوامل التي يحسبون أنها مهمة في 
المحصلات التنبؤية» ومن ثم تشكيل قياسات تمثل تلك العوامل. إن علماء 
التنقيب في البيانات» هم في الغالب غرباء دخلوا في منظمة لتحليل أنشطة 
سبق أن حَبَّرها المطلعون التنظيميون بشكل كبير. إنه لمن الحكمة استجواب 
هؤلاء الخبراء والحصول منهم على استبصاراتهم للاطلاع على تشكيل 
و 


© يخلق سمات جديدة» تعد نسباً (122609), مشكلة من متغيرات قائمة؛ ففى 
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قطاع العقاراتء مثلاً» قد يكون ثمن العقار للقدم المربع الواحد قياساً أكثر 
فائدة من التكلفة الإجمالية أو الحجم الإجمالي لعقار ما. وفي البحوث 
الصحية. يعد مؤشر كتلة الجسم (<1206 7355 /[800) نسبة معقدة» من 
الوزن إلى الارتفاع الذي يعمل بمثابة تنبؤ مفيد بالنسبة إلى أنواع مختلفة من 
المحصلات الصحية. وفي علم السكان. تُعد متغيرات حرجة عديدة 
معدلات (معدلات الأطفال بالنسبة إلى كُلَ 10,000 امرأة فى سرّ الإنجاب» 
ومعدلات الطلاق بالنسبة إلى 1,000 زواج في لعن وك لب ا 
على علماء التنقيب فى البيانات» ضمان التفكير فى السب والمعدلات 
المناسية لذ تشكيلي النبحاك فى مجموعة بوانات ما 


© بتشكيل نسخ جديدة من متغيرات مستمرة» تهدف إلى ضبط التأثيرات اللا 
خطية لمتغير تابع هدف. ويمكن القيام بتوزيع الخانات (128مم81) هذى 
باستخدام تقسيم البيانات» أو برمجيات الشجرة. أو استخدام توزيع خانات 
مثالية (عهنصصذ8 81دنام0), كما تمت مناقشة ذلك آنفاً. وسيتم أيضاً تقديم 
أمثلة بهذا الشأن في فصل لاحق. 


© بتشكيل متغيرات جديدة لتمثيل التفاعلات بين سمات أخرى أو متغيرات» 
ولكنها متغيرات يمكن أن تدخل - بعد ذلك - ضمن نماذج باعتبارها 
متغيرات في حدّ ذاتها. وسيحدد مربع لكشف عن التفاعل التلقائي 
(01141).: والتصنيف وشجرة الانحدار (0811) تفاعلات تم تفصيل 
القول فيها سلفاً. 

© بالتذكير بأن بعض إجراءات التنقيب في البيانات تتطلب من الباحث إعادة 
قياس المتنبئات قبل تشغيل النماذج. ويتجلى مسوغ إعادة قياس المتنبئتات» 
فى كون أن بعض المتغيرات تقاس بالوحدات مثل الدولارات» وتأخذ قيماً 
من صفر إلى مليون أو أكثر» في حين إن آخرين قد يكون لها فقط فئات قليلة 
(مثلء من واحد إلى خمسة)» وقد تبقى أخرى - مع ذلك - مجرد قيم عشرية 
تنحصر بين صفر وواحد. وقد تتحيز بعض د تطبيقات التنق لتنقيب فى البيانات 
لمتغيرات ذات مجموعة كبيرة من القيم أو تباين كبير» على حساب متغيرات 
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ذات مجموعة صغيرة من القيم. ويتمثل إيجاد حل لتلك المشكلة في إعادة 
قياس كُلٌ المتنبئات» لتتساوى فى نهاية المطاف. (تنجز بعض التطبيقات 
هذه الخملية من عَمليْة إعادة القيامن تلقائباء ومن »لآ حالجة للباحث لأن 
00 


* بالتذكير بأن النوعين الأكثر شيوعاً من إعادة القياسء هما التقعيد 
(ه5:01280لمة:5) (داخل درجات -2 (2-50056)) والمعايرة 
(201311286100). ويشمل التقعيد داخل درجة-2» 00 مانا : إن 
متوسط القيمة بالنسبة إلى ذلك المتغير, يُطرّح أولأء من كُل قيمة مرصودة. 
والرقم المحصّل عليه يُقَسَّم بعد ذلك على الانحراف المعياري للمتغير. 
والتقئيتان كلاهما يعملان على جعل المتغيرات متساوية من حيث القياس. 


© بالتذكير أيضاً بإمكانية إجراء تحليل تجميع ماء لتحديد المجموعات ذات 
الحالات المماثلة في مجموعة البيانات» دون الإشارة إلى المتغير التابع» أو 
المتغير الهدف. ويمكن للباحث اختيار عدد التجميعات مقدماً (غالباً حوالى 
أربعة). كما يمكن استخدام تلك التجميعات - إذن - لتحديد متغير عادي 
وباستخدام هذه الاستراتيجيات» ينتج علماء التنقيب في البيانات سمات أو 
متغيرات جديدة يتم توظيفها في مراحل متعاقبة في تحليل التنقيب في البيانات إلى 
جاتب الشكيرات الموجودة سلف وقد شين أن يعفن المتغيرات الجديدة هن 
متنبئات مهمة» ولكن يمكن التخلص منها. وتعد هذه الغربلة دقيقة؛ ومن غير المرجح 
أن يهتدي المرء إلى نموذج قوي. ما لم يبدأ بمجموعة غنية من السمات. 
وإن الأنشطة المتنوعة التي تنتتج السماتء إلى جانب انتقاء المتنبئات الأكثر قوة 
(سيتم مناقشة ذلك في القسم التالي)» زائد البيانات المفقودة» كُلَ ذلك يشار إليه 
بالمعالجة المسبقة للبيانات (0262آ 25اووعع10مع217). 


انتقاء سمة 
إن طرق انتقاء السمة» تمكن الباحث من تحديد المتَنبّى المحتمل - من أصل 
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العيته مت البسعاكفيك المرقط اوناظا قويا كي معملة :ذا متحة وشاعه أبفدا 
على تجنب مشاكل ذات الخطية المتعددة (/1/111116011126211]9) من بين متنبئات. 


ويقدم التنقيب في البيانات بدائل متعددة» لانتقاء مجموعة فرعية من المتغيرات 
المستقلة التي تعد المُتَتبّات الأكثر فاعلية لمتغير تابع. وهناك طريقة معروفة سلفاً 
لدى علماء الاجتماع الكميين: الانحدار التدريجي يعقبه منطقاً يشبه التنقيب في 
البيانات. وبعد تحديد متغير مستقل» يشتغل برنامج تدريجي موجه عبر كل المتغيرات 
المستقلة» مُقَدّراً لكل منها قوة تنبؤية لنموذج انحدار» يضم فقط ذلك المتغير 
المستقل. ويختار المتنبئ الأفضل من هذه المتغيرات. وفي خطوة ثانية» يعود إلى 
مراجعة قائمة المتنبّئات المتبقية» ويقيّم الأفضل منها الذي د من التطابق إذا ما 
أضيف إلى الأول في نموذج الانحدار. ويضيف ذلك المتنبئ الأفضل إلى المتنبئ 
الأسبق» ويكرر العملية مرات عديدة إلى غاية تحديد مجموعة فرعية من المتنبئات 
التي - إذا ما مزجت - تتنبأ جيداً بالمتغير التابع. إن طرق تقسيم الشجرة 
أو طرق التقسيم العودي (8صنه79:660 06زوسساء8), شبيهة بالانحدار التدريجي 
(2655100ع116 7/15امع]5) من حيث اختبارها كَ متنبع محتمل على حدة وانتقاؤها 
المتنبئات الأكثر قوة» بينما تقوم أيضاً بتحديد تفاعلات بين متنبئات. 

ويُزعم أن خوارزميات أخرى من خوارزميات التنقيب في البيانات لانتقاء 
السمة» تتفوق على الانحدار التدريجيء إما من حيث سرعة حوسبتها و/ أو من حيث 
كونها أقل تحيزاً. هناك مقاربة تعرف باسم الانحدار الأصغر للزاوية (8185.]) أو 
الحد الأدنى للاتكماش المطلق فى أَمْكَلَة الانتقاء 320 ,تمقتتطوط11' ,ع5)1ة1]1) 
(2002 1/1111 2009 مسمسلعتط. ويتم تنفيذ انتقاء سمة اللاسو في الطبعة المهنية 
لبرمجيات إحصاء الحزمة الإحصائية للعلوم الاجتماعية (5855) (اختر الانحدار 
-> القياس الأمثل للانحدار القاطع» وانتق اختيار التسوية). 

كما توجد خوارزمية سمة انتقاء أخرى.ء يُفترض أنها أكثر دقة من «اللاسو)ء ولها 
أيضاً امتياز السرعة الفائقة» تدعى انحدار تباين عامل التضخم (17/17) (لأنها تستخدم 
عوامل تباين التضخم لانتقاء المتنبئات المحتملة)» وهي متاحة بالمجان بصفته 
برنامجا في 11282:2011(12 20ة متعاوه 1 مقناآ) . 
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وداخل 18. اكتب «125]811:29018865») (17115). وهناك معلومات إضافية 
على الر ابط : 11.2014 /5/1711*/1ع8 312 م/داء01.018/77» [1115://6111.1-010. وسنمثل 
لذلك فى فصل لاحقى. 

تقدم ثللاث إجراءات» أدوات بديلة لبناء متغيرات جديدة» تعل يه ييا 
(كسلك لعاطعاء11) لمتغيرات قائمة» ويتعلق الأمر بتحليل المكون الرئيسى 
(515لا21ضى 215ء02م0022) 21م22121). وتحليل المكون المستقل غمعل0مءم1206) 
(11313/515م ]00110011 ومزيج من الإسقاط العشو ائي (جمناءء زط 7ه0لمةظ]1) 
وتجزئة القيمة المنفردة (02220510102ع106 عسله؟ نوا ناعصاد) . 


ويعد تحليل المكوّن الرئيسي أكثر التقنيات رسوخاً وهو متاح في العديد من رزم 
البرمجيات» ولهذا فإننا ننصح باستخدامه. ويجد تحليل المكوّن الرئيسي مجموعة 
من المكوّنات (أو العواملء أو المقاييس) التي - إن اجتمعت - ستفسر التباين 
الإجمالي داخل مجموعة بيانات بشكل أفضل (1989 ةتطع01نا(1). ويتشكل كَ 
مكون من إضافة؛ عدد إلى متغيرات تم قياسها سابقاء كل بحسب عمله الترجيحي 
الخاص به. ونُنْتَقَى هذه المتغيرات وتُحسّب ترجيحاتها بطريقة تُفسَّر فيها المكوّنات 
أو المقاييس المستخلصة. التباين الشامل في مصفوفات البيانات قدر الإمكان. 


وفي الخطوة الثانية» يتم «تَدوير) هذه المكوّنات (1018160) لتصبح خالياً غير 
مترابطة بأي بعد آخر. وينتج عن ذلك عدد صغير من متغيرات جديدة أو سمات 
تلخص معظم التباينات الموجودة في العدد الأكبر من المتغيرات الأصلية. ومن ثم 
فإن تحليل المكوّن الرئيسي يحقق تخفيض البعد من خلال تقليص عدد المتغيرات. 

وليس أمر معطىء أن تكون المكوّنات التي تفسر قدراً كبيراً من التباين في 
مجموع بيانات» متنبئات جيدة لمتغير تابع خاص اوالولف أو رقعة تعريف (اعطم1). 
سيتم تحديد ذلك في مرحلة لاحقة خلال النمذجة. ومع ذلك؛ يخلق تحليل المكوّن 
الرئيسى متغيرات جديدة. ويمكن لبرمجيات تحليلية البتّ لاحقا فى المتنبئات 
الأقفل الصلفة. ْ 
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وتتمثل سلبيات تحليل المكوّن الرئيسي في كون المكونات أو العوامل التي 
نجه قداتنتقر إلى المعى أوبالتأويل: واتشمل» إجراء تخليل المكون الرئيمي» 
متغيرات أصلية على مكونات» من خلال عملية ترجيح المتغيرات الأصلية بطريقة 
يفسر فيها المكون الكثير من التباين» ولكن من حيث التصور. لا يمزج ذلك - بشكل 
متكرر - متغيرات مختلفة جداً داخل مكون واحد. وماذا تعني إمكانية مزج مكون ماء 
لأسئلة أو لمقاييس حول أفراد مختلفين اختلافاً كاملا من خلال شحن مواقف تجاه 
الإجهاض بمقاييس دخل العائلة» والعمرء ومدة التنقل اليومي؟ وإذا تبين أن مكوناً 
مفككاً من حيث الموضوع. متنبئاً له دلالة في نموذج ماء فكيف يؤول المرء تلك 
الحقيقة؟ 


ويعيدنا هذا إلى التوتر القائم بين تحليل البيانات الذي يركز على آليات الفهم 
وعمليات سببية» مقابل تحليل يرتكز على دقة تنبؤية. وإذا كانت الغاية من وراء بناء 
نموذج ماء تتمثل في التنبؤ بدقة» وبعدها الاستناد في القرارات إلى ذلك التنبؤء فإن 
عدم التماسك التصوري لمقاييس تحليل المكوّن الرئيسي, لا يهم كثيراء مادامت 
«تشتغل». وإذا كانت الغاية» هي فهم عملية سببية ماء فسيطرح إنتاج تحليل المكون 
الرئيسي لمتنبئات غير متماسكة وغير قابلة للتأويل» مشكلاً. 

إن برنامجاً لتحليل المكوّن الرئيسي» قد يعمل جيداً بمائة متغير» وبضعة آلاف 
تالت ولك قاط وقد كيان انك عو حوفي معي عاك يل تاف يوه دا ليما 
معالجة مصفوفات ضخمة:» أصبحت تستهلك - حسابياً - وقتأ طويلاً. ولكن لحسن 
الحظ أصبح لدى علماء التنقيب في البيانات القدرة على بسط منطق تحليل المكوّن 
الرئسى اليشمل تحليل البيانات الكترى طمن مقادير محقولة :لوقف المع الجة#مة 
خلال مزج تقنيتين هما: الإسقاط العشوائيء وتجزثة القيمة المنفردة. 

أولاً: يضرب الإسقاط العشوائي مصفوفة بيانات في مصفوفة عشوائية» لإنتاج 
- في الواقع - العديد من المتغيرات الجديدة» بحيث يحتوي كل واحد منها على 
متغير قديم. يرجح بواسطة عدد عشوائي. وبعد ذلك. يضيف معاً كُل تلك المتغيرات 
المرجّحة حديثاً لإنتاج متغير جديد. وتبدو تلكء انطلاقاً من الانطباع الأول» فكرة 
غريبة جدا: إنتاج متغيرات جديدة» شبيهة بمقاييسء تعد مزيجا عشوائيا بشكل دقيق 
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لمتغيرات قائمة من قبل. إن تجزتة القيمة المنفردة» إذن» تحلل هذه المتغيرات 
المنتجة حديثاً لخلق عدد أصغر من الأبعاد أو الخصائص التى يمكن استخدامها بعد 
ذلك. في نموذج من نماذج التنقيب في البيانات ,لم11 :2004 ه1تصصع171) 
(2011 مم10 200 ,21311125502. إن تجزتة القيمة المنفردة شبيهة بتحليل المكون 
الرئيسي بما أنها تقلص عدداً كبيراً من المتغيرات إلى متغيرات جديدة أقل. 

لقد بين علماء الرياضيات إمكانية أن يحافظ العدد الأصغر لسمات أو متغيرات» 
تم إنتاجها بواسطة إضافة نسخ مثقلة عشوائياً من المتغيرات الأصلية؛ على البنية التي 
كانت موجودة فى الأعداد الكبرى للمتغيرات الأصلية (820 ,25502نة1/1 ,113110 
1 خاعم 11 م بتالعآء0] ,11311255011 :1 201 ممه11) . 


ِنَّ تحليل المكوّن المستقل» مقاربة أخرى تطورت حديثاً لاستخراج سمات 
شبيهة بتحليل المكوّن الرئيسي. ويقول كتَابُها بتفوقها - إلى أبعد الحدود - على 
تحليل المكون الرئيسي في قدرتها على إيجاد مكونات تتنبأ بهدف مارلاعهمة11920) 
(2001 0(9 320 ,معمستطمة؟1. هناك برنامج يدعى فاست آي سي أي (ش ]امه 7). 
يمكن تحميله بالمجان من المو قع التالي :ف /وع2210.11/1.ذع1. اع توعوع؟//:ماغخط 


.125118/ 


إنشاء نمود 

إنشاء دمودج 

بمجرد أن ينشأ باحث ما مجموعة بيانات» غنية من حيث السمات والمتغيرات» 
يمكن للنمذجة أن تبدأ. وسيختار عالم التنقيب في البيانات نوع النموذج المستخدم. 
ولكن هذه الخطوة الأولى» خطوة مرحلية فقطء بما أن باحثا ما سيحلل البيانات» 
مستخدماً أنواع مختلفة عديدة من النماذج أو المقاربات. وسيقارن دقة تنبؤها قبل 
الاستقرار على مقاربة نهائية. 

وإذا كانت غاية تحليل البيانات» هو التنبؤ بمتغير ثنائي (نعم/ لا)» فإن علماء 
التنقيب في البيانات لهم لوحة عريضة من المصنفات التي تنجز ذلك: طرق الجوار 
القريب (1/6181015-]7163565),. وطرق الشجرة» والمصنفات البايزية الساذجة 
(صوزوع/83 2/13176)» والمصنفات «البايزية»» وشعاع الدعم الآلئ 0011م ) 
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(1265ط2136: والشبكات العصبية» إضافة إلى الطرق الإحصائية الراسخة القديمة» 


من قبيل الانحدار اللوجيستى» ووحدة الاحتمالية (2:061)». والتحليل التمييزي 
(515ولالهمة امقطنتطنت كه 1015) . 


عندما يكون متغير الهدف أو المتغير التابع» قياساً مستمراء فإن قائمة التقنيات 
القابلة للتطبيق تكون طويلة. بما فيها طرق الشجرة» ونماذج الشبكة العصبية» 
والانحدار البايزي (1687655102 823/65188). بالإضافة إلى مقاربات الانحدار 
التقليدي. 


إن أي شخص حديث العهد بالتنقيب في البيانات» يسأل السؤال نفسه عند هذه 
الفقطة الأولكى هاه الطريقة الى :يعم على نحو فيل 46 السام عن هد سوال 
لن يروق لأحد: ايعتمه ذلك على كل ظريتة أواتفائة بطل عدة ات ابتعمالها 01 
عندما حاول الباحثون مقارنة دقة هذه التقنيات المختلفة» مستخدمين مجموعات 
بيانات متعددة» لم يجدوا أي تقنية ما واحدة تتفوق على كُلّ التقنيات الأخرى بشكل 
متسق. وإذا حلل شخص ما مجموعة بيانات منفردة» فإنه فى الغالب تتفوق تقنية على 
باقي التقنيات الأخرىء ولكن عندما ينتقل الشخص إلى قلت ما بيانات 
مختلفة» فإن ترتيب الطرق سيتغير بالكامل. والطريقة التي كانت بارزة من ذي قبل» 
هي الآن قريبة من الجزء الأسفل من القائمة» في حين ارتقت طريقة أخرى إلى أعلى 
القائمة. 


ربما مع الوقت» سيطور باحثون نظرية» تمكن طرق التنقيب في البيانات من أن 
تكون الأنسب لمجموعات بيانات معينة» ولكن ذلك لم يحدث إلى حدّ الساعة. يبدو 
أن خصوصيات مجموعة بيانات ماء تهم حقا - مظاهر بنيتها التي لم نستوعبها 
بسهولة. ولا يمثل ذلك حاجزاً عملياً أمام التحليل» وإنما يعني فقط أن أي عالم 
حساس من علماء التنقيب فى البيانات» يجرب تقنيات نمذجة عديدة بالنسبة إلى 
وموعة ينات كا صف ار بلاحط بلاق أكاء كُل تقديةا تمن هذا السياق الفريد بشكل 
حد. 


(1) لم يحسم المؤلف أمره بخصوص التقئيات المثلى التبعة في تحليل البيانات» لتوفر كَل تقنية على حدة» 
على ميزات خاصة بها (المترجم). 
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المرء الثاني 
أمثلة عملية 


الفصل (الغاس 


إعداد التدريب 


ومجموعات بيانات الاختبار 
منطق الصلاحية المتبادلة 


ناقشنا سابقاًء كيف أن الصلاحية المتبادلة تعمل بمثابة آلية مراقبة جودة في عملية 
التنقيب في البيانات» وأشرنا إلى كيفية اختلاف طرق الصلاحية المتبادلة على نحو 
مهمء عن الاختبارات التقليدية من أجل دلالة إحصائية. سنناقش الآن بشكل واضحء 
منطق الصلاحية المتبادلة» وتقديم - بعد ذلك - دليل يبين كيفية تنفيذ هذه التقنية 
عملياء مستخدمين عددا من الحزم الإحصائية. 

إن العديد من نصوص التنقيب في البيانات» تتناول منطق الصلاحية المتبادلة 
على نحو عابر جداً بحيث يتم التركيز على تطبيقها العملي: كيف تقدّم الصلاحية 
المتبادلة حلاً لمشكلة يمكن أن تصادفه لدى استعمالها طرق مكثفة لمعالجة بيانات 
ضخمة. وفي بعض نصوص التنقيب في البيانات. تُقَدَّم الصلاحية المتبادلة باعتبارها 
طريقة تمنع التدريب المغرط (0171116128)) :2009 راعم8/1 لصةه متع810 راعو16ل8) 
(2013 ممكصطه1 لقة سطنكا. وفي نصوص أخرى. تفل باعتبارها طريقة لانتقاء 
نموذج ما (2012 لإنام:ا/8)» كما تستعمل أيضاً في نصوص أخرىء وسيلة من 
وسائل تقييم دقة النموذج (2012 ع2 320 ,تع ط صما ,رم115) . وفي الواقع» إن 
الصلاحية المتبادلة تشير إلى كُلَ ما ذكر عنهاء ولكن لماذا هي على هذا النحوء ولماذا 
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تعد هذه المشاكل مترابطة» هما سؤالان غامضان. من أجل ذلك. نحاول هنا ملء هذه 
الثغرة التصورية. 

إن الإشكالات التي يعالجها التنقيب في البيانات بالتوسل بطرق الصلاحية 
المتيادله سي (شكالات متحورية ودالوقة في المنازنة التلدية وني البتدطا العلمن 
الذي يعاول نكال دكا مدنا لا يعتد أبداً بالنتائج الموتجودة ف درانية منشفلة في 
حدّ ذاتهاء باعتبارها وصفاً صالحاً لكيفية عمل العالم بشكل عامء لأن طبيعة الحظ 
للمعاينة أو أخذ العينات (1108م5302)» وإمكانية الحدوث العشوائي في تجربة ماء 
تجعلها أمراً ممكناء إلى درجة أن نتائج دراسة واحدة» هي نتيجة احتشاد ظروف 
غرضيةوكي يع الوثوفببالتاتع والقبول بهاء عليها أن تحصل على دعم من بحوث 
متعددة متتالية. وباختصارء لا بد من إعادة النتائج على نحو مستقل» ويكون ذلك 
مثالياء إذا قام بذلك باحثون مختلفون كليا. 

تسمح إجراءات الصلاحية المتبادلة للباحثين باستعمال هذا المنطق داخل بحث 
أو تحقيق واحد. وفي طريقة الصلاحية المتبادلة الأكثر بساطة» يقسم الباحثون 
بياناتهم إلى عينات فرعية قبل بناء نموذج تنبؤي. ولأن تقسيم البيانات عشوائي» نظراً 
للغايات المحدودة للبحث المتوافر» فإن العينات الفرعية المولّدة تشكل مجموعات 
ترصدات مستقلة؛ فهي ليست مستقلة بمعنى شاملء بما أنها مستخلصة من الساكنة 
نفسها (أي المجموعة الكاملة من البيانات). ولكن داخل الكون الذي حُدّد من أجل 
الدراسة» وحُدّد أيضاً من قبل البيانات التي نحن بصدد استخدامهاء تصبح 
المجموعات الفرعية مستقلة عن بعضها بعضا عبر العشوائية (16820012128410). 
ويبني باحثون نموذجاء مستخدمين مجموعة من الترصدات وبعد ذلك» يقومون 
باعي اووتعاى توزد ع لخر وهذه الخطوة الأخيرة تمثل اختباراً مستقلاً لدقة النموذج. 

تُستعمل العشوائية إجمالآء لضمان أن المجموعات الفرعية - في المتوسط - 
التي تم إنتاجهاء متشابهة قدر الإمكان من حيث الخصائص الات (انظر مثلآ» 
8 (ذأطنا1). ولكن لها نتيجة مريحة أخرىء, تستغلها طرق الصلاحية المتبادلة 
للتنقيب في البيانات: التغير العشوائي بين المجموعات الفرعية التي تم إنتاجها عبر 
تعيين عشوائي (1عتتضع 4551 273ه1]8500). وإن السمات التمييزية ©1أهزعملا10105) 
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(1680565 لأي مجموعة فرعية معينة تم خلقها بشكل عشوائي, قد لا تتكرر - أصلاً 
- في المجموعات الفرعية الأخرى. وفي المقابل» من المرجح أن تكون الانتظامات 
التجريبية عبر المجموعات الفرعية خصائص الساكنة بأكملهاء أي إنها ستخبرنا 
بالإشارة (518021) التي نريد الانتباه إليها؛ إن التغير العشوائي عبر العينات الفرعية 
يمكن التفكير فيه باعتباره الضجيج الذي نود أن نفصله تحليلياً. 

ولهذه أهمية خاصة لمرونة طرق التنقيب في البيانات وقوتها الشديدة في إنتاج 
نماذج تنبؤية. ولأن نماذج من قبيل الشبكة العصبية» وأشجار التقسيم قادرة على 
مطابقة نفسها بشكل وثيق مع البيانات» فهي عرضة للسماح للضجيج بالقيام بدور 
أكبر مما يرغب فيه المرء في توليد النموذج الذي يقوم على أي مجموعة خاصة من 
مجموعات الترصدات. وتصبح لدانة (2135)1011) النماذج وقوتها - بهذا المعنى 
- هى لعنة. إذ سينتجون نموذجا دقيقا للغاية» محققين كمالا تقريباء فى الدقة التنبؤية 
بالينة إلى المحموقة الخامة من التر يداك ان تامف عانها ولك هده لعي 
مخيبة للآمال» أو امفرطة فى التفاؤل» بتعبير أحد الباحكين القدامى (1931 1 )0 
بما أن هذا النموذج لو يكرة اذاو جيدا ادا السلادها عن ايلا وغ انما ينض زليه 
متخصصو التنقيب فى البيانات بالإفراط فى التدريب (076111]0128). ويمكن أن 
يساعد استخدام الصلاحية المتبادلة المساعدة في انتقاء النموذج وتقييمه» وتقليص 
إمكانية حدوثه. 

لنتأمل سبب أهمية هذا فى نهاية المطاف. إن خوارزميات التنقيب فى البيانات» 
يمكن أن تكون أدوات قوية للتنبؤء كما يمكنها - من ثم - تحسين القدرة العملية 
التشخيصية؛ أي إنه» إذا تدربت خوارزمية من خوار زميات التنقيب في البيانات على 
مجموعة من البيانات التي يستطيع الباحثون من خلالها الولوج إلى القيمة الحقيقية 
لمتغير النتيجة (1/8:18616 0100126)» والتحقق من مجموعة مستقلة حيث قيم 
النتيجة معروفة أيضاًء يمكن نشرها لاحقاً في بيانات حيث متغير النتيجة - أي كمية 
القائدة حر مروف عا ييل الكفال يمك لأدوات الشقيب فق البزانا تا تسحمدية 
قدرة الممارسين على التمبيز بين الخلايا السرطانية» وغير السرطانية. وبالنظر إلى 
هذا التطبيق العملي» فإنه بات من الأهمية بمكان, أن تكون النماذج دقيقة» من خلال 
تطبيق صارم للصلاحية المتبادلة من أجل انتقاء نموذج وتقييمه. 
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لدينا تعقيب أخير حول أهمية طرق الصلاحية المتبادلة. وقد بات لدينا يقين في 
مسار بحثنا أن القوة التنبؤية لطرق التنقيب فى البيانات الكثيفة عاد 
(علاتأمطعغم1] نزالهصه 2 تممه ©) تأت بتكلفة. من 0 قدرة النماذج على فهمها 
فهما تاما من قبل البشر. ويصف كوهن (2طنا>1) وجونسون (02كصط10) (2013) هذا 
ابالتوتر بين التنبؤ والتأويل». وغالباً ما تدخر نماذج التنقيب في البيانات قوتها عبر 
تعقيد متزايد» مما يجعلها مربكة» وإن لم نقل ببساطة إنها مبهمة بالنسبة إلى المحللين 
البشر. ولكن يرى كوهن وجونسون - خاصة في حالات الحياة والممات - عدم 
إيلائها أي أهمية» وأن تفضيل نموذج مفهوم وذو أداء ضعيف نسبياء على حساب 
نموذج ذو «علبة سوداء» وتنبؤي للغاية» هو أمر «غير أخلاقي». وفي سياق النماذج 
التي تعجز نتائجها عن أن تكون مفهومة بسرعة؛ ويوحي ظاهرها بأنها دقيقة للغاية» 
تدر الصلاحية المتبادلة وسيلة أساسية من وسائل توليد الثقة عبر الاختبار الصارم. 

وباختصارء تمنح الصلاحية المتبادلة اختباراً مستقلاً للنموذج المتطور بتقنية من 
تقنيات التنقيب في البيانات. فهي تساعد على اختيار النموذج «الأفضل» (انتقاء 
النموذج) من حيث قدرته على التنبؤ من عينة» وعلى تقييم القدرة التنبؤية «الحقيقية» 
لنموذج ما (تقييم النموذج). ويساعد هذا على الاحتراز من إمكانية انتقاء نموذج 
متوقف أساساً على البيانات الخاصة التي كانت تقوم عليها - أي إنها تحترز من 
التدريب المفرط. كَل هذه الوظائف مترابطة بإشارة مشتركة إلى منطق الاختبار 
المستقل وموثوقية التتائج القابلة للتكرار. والآن نعرض لنقاش مختصر للطرق 
المختلفة للصلاحية المتبادلة» وبعد ذلك نشرع في توضيح كيفية أداء الصلاحية 
المتبادلة» من خلال التوسل بعدد من البرامج الإحصائية. 

طرق الصلاحية المتبادلة: نظرة شاملة 


يمكن توليد مجموعات البيانات «المستقلة» بطرق شتىء غير أن الطريقة الأكثر 
بساطة من حيث التصورء والأكثر تعقيداً - في الوقت نفسه - من حيث العمل 
الحقيقى المطلوب. تتمثل فى الاشتغال ببيانات جمعت على نحو منفصل. وإذا قمنا 
يناك تمرع كيوقي لمعدل الوقالعة متواسلين ببيانات مأخوةة هن مستشفى: واحد؛ 
فسيكون بإمكاننا إخضاعه للاختبار انطلاقا من بيانات تم جمعها في مستشفى 


116 


مختلف. ولكن هذه الحالة نادرة إلى حدّ ماء على الرغم من أنها مرغوب فيهاء على 
ما يبدو. إن عملية جمع البيانات مكلفة» ومن غير المرجح أن يرغب الباحثون 
والممولون فى مضاعفة تكاليف البحث لمجرد قدرة المُتَمذِجِين التنبؤيين الحصول 
علق اتحووضة الات اخخان طليفة. 


ومن ناحية أخرى» توجد ثلاث طرق يتم من خلالها توليد البيانات المستقلة من 
مجموعة بيانات وحيدة: النظام التمهيدي (800151250128)), والكابح العشوائي 
(عاعة11010 دنملصة18). وطية-ك (1-175010). وتشمل الطريقة الأولى» المعاينة 
العشوائية بالاستبدال» من أصل البيانات المتوافرة لدينا. وغالباً ما يتم القيام بهذه 
العملية» مرات عديدة؛ فتنشأ مجموعات بيانات عديدة منفصلة بحجم مساو لحجم 
مجموعة بياناتنا الأصلية. وإذا كنا نظن أن بياناتنا الأصلية» كانت عينة عشوائية نسبياء 
مأخوذة من الساكنة» فإن «النظام التمهيدي» يقدم طريقة غير متحيزة لتوليد عينة 
عشوائية لكل العينات العشوائية الممكنة. كما يمكن استخدام كُلَ عينة من العينات 
الممهّدة (60مم80015]:2) المتعددة في تحليل البيانات» وتقديم مجموعة من النتائج 
(المعاملات أو الاحتمالات المتنبأة» على سبيل المثال)» التي يمكن بعد ذلك إيجاد 
متوسط لها للحصول على نتيجة عامة. 


0 «النظام الا 0 الإيجابية 0 على 7 أخري» 
على حدٍ سواء©) (1983 0028 لصة صمقظ :1983 ,1979 8500). علاوة على 
ذلك. ينتج «النظام التمهيدي» ع ناريا لا جلها (عتماع سهمدممه81) - لا يقوم 
على افتراضات توزيعية قد تفتقد إلى السند التجريبي - دخل في واقع الأمرء في 
(2) إن معدل الخطأ مساو لعدد الحالات التي أساء النموذج تقسيمها (60 أدقداه8115). مقسوم على 
مجموع عدد الحالات . ومن خلال البوتسرابينغ د يمكتنا توليد توزيع معدل خطأء الذي يعد عادياً على وجه 
التقريب . وسيكون متوسط التوزيع عادة أكبر من التقدير الساذج لمعدل الخطأء انطلاقاً من بيانات التدريب» 
وسيشكل تقدير «الواتسراب» لمعدل الخطأ . ومن الممكن أيضاً حساب خطأ «الواتسراب» المعياري الذي 


يعادل الانحراف المعياري لمعدلات الخطأ في مجموعة العينات الممهّدة ة التي تم إعادة تشكيلهاء مقسوم 
على جذر مربع لحجم العينة. (المترجم) 
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النمذجة الإحصائية على هذا الاعتبار أساساً. وأخيراًء إن «النظام التمهيدي» ينتج 
ديرا ممهداً (5200560 عأقمرنا85) لمعدل الخطأء لأنه يولك مجموعات بيانات 
متعددة» عوض مجموعة بيانات واحدة» التي على أساسها يتم اختبار النموذج. ومع 
ذلك. إن «النظام التمهيدي» كثيف جداً حسابياًء وقد يكون مستنزفاً للوقت لدى 
استخدامه مع مجموعات بيانات كبيرة. 


وتعد مقاربة «النظام التمهيدي» قيّمة بخاصة عندما يكون لدى المرء عينة صغيرة» 
يبدأ بها عمله. حيث القوة الإحصائية تشكل فعلاً قضية من القضايا. ولكن في حالات 
أخرى. تكون لدينا بيانات تحتاج إلى الصقل» وهو أمر يزداد صحة في عصر البيانات 
الضخمة. وفي هذه الحالة الأخيرة» يمكننا تبني مقاربة أكثر بساطة للغاية من 
البوتسرابينغ» تدعى الكابح العشوائي 51010521 ددملمخخ]1): يمكننا ببساطة تقسيم 
البيانات إلى مجموعة تدريب ومجموعة اختبار» وبناء نموذجنا باستخدام الأول» 
وإخضاع الثاني للاختبار. كما يمكننا تقسيم البيانات بين أجزاء التدريب وبين أجزاء 
الاختبار إلى ما نشاء من النسب - 50/ 270/7050 وهكذا. 


وفي المقابل» يمكننا تبني مقاربة ثالثة باستخدام ما يُسمى بالصلاحية المتبادلة 
لطية-ك (1-4010). ويشمل هذاء تقسيم البيانات بشكل عشوائي إلى أجزاء-ك (أو 
طيات-ك)» ذات حجم متكافئ» بحيث تكون (ك) عددا من اختيار الباحث. (وأما 
القيم النموذجية ل (ك)) المستخدمة في حزم البرامج الشعبية» فهي 5 أو 10 طيات)؛ 
مووي اللي ما رلا تياف حب يدع لوطا رجه ب اين 
الطيات. ويتم اختبارها بعد ذلك على آخر ما تبقى من الطيات. وفي جوهر الأمرء 
لدينا مجموعة تدريب (ك)» ومجموعة اختبار (ك)» وكل نموذج من نماذج (ك)) 
المحصل عليهاء يتم اختبارها على بيانات لم تستخدم في توليدها ليحك دماج 
النتائج من خلال إيجاد المعدلء أو يمكن اختبار النموذج المتافييب هذا “ود هله 
الطريقة أيقا جيدة بالشة إلى مجموعات ريانات صغيزة لسياً. 


وسنبين الآن كيفية إنجاز طية-ك والصلاحية المتبادلة الكابحة باستخدام حزم 
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«الستاتا» 


إن «الستاتا» ليست في الحقيقية حزمة من حزم التنقيب في البيانات» وعليه فإن 
الصلاحية المتبادلة لم تبنى داخلها على نحو يجعلها سهلة الاستخدام بشكل خاص. 
ومن الضروري - على حد علمنا - القيام بالصلاحية المتبادلة الكابحة «باستخدام 
اليد). 
«إن الأمر الأول الذي يجب القيام به لإنجاز الصلاحية المتبادلة الكابحة» هو 
تقسيم البيانات بشكل عشوائي إلى جزئين». وتسمح «الستاتا» بمعاينة عشوائية» 
تمكن الباحث بعدهاء من إنتاج مجموعة بيانات منفصلة» غير أننا نظن أنه من اليسير 
جداً التوليد ببساطة» متغير يسمح بتقسيم عشوائي. ويمكن القيام بذلك من خلال 
توليد معادلة ذات حدين (812070121) باستخدام الشفرة التالية: 
(م,2) اقتممصاط؟ - ع مومع 
الحدول رقم 1.5: نتائج مأخوذة من برنامج الطية المتبادلة (2070551010) ل «الستاتا». 
عدد الطيات المتبادلة خطأ جذر متوسط المربعات 
1 06*) 
2 2*) 
3 24) 
4 2*7) 
5 5 2) 


وتعمل هذه التسمية على توليد متغير جديد يدعى «» بحيث يوزع باعتباره معادلة 
ذات حدين. ويمثل المعلم #» عدد تجارب المعادلة ذات حدين تبعاً لكل حالة» في 
حين تمثل رر احتمال «النجاحات». أما بالنسبة إلى الإسناد العشوائي» فتقوم 1 - :/, 
وم على انهيار التدريب/ الاختبار الذي ترغب فيه. وإن تحديد مرفي قيمة .5» سيولد 
متغيراً جديداً ذا انهيار يقدر ب 50/:-50/» للوحدات والأصفار؛ كما أن تحديد ترفى 
قيمة .27 سينتج انهياراً بواقع 70/ - 30//. وهكذا. 
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وأما الاختبار المستقلء» فتلك قصة أخرى. ففى حدود علمناء قد يشمل هذا بناء 
نموذج (انحدار لوجيستي) انطلاقاً من قسم من 5 (حيث 1 - -:*). بحيث 
تُخْرّن تقديرات المَعلّم في المتجه (1/60105)» ثم يتم تنبو الحصيلة في باقي البيانات 
(حيث 0 - -<)», وذلك باستخدام معادلة انحدار مولدة عبر ضرب مصفوفة متغيرات 
فى هذه المتجهة من المعاملات. وتعد هذه العملية شاقة نوعاً ماء ويدخل المستعمل 
فى لق ورخف بط رداون ا1 الاج 4 ال تون موده الى عن ان زب لشف نب يحت 
القيام نتكنيت الكابح اعوط 1ه11) في «الستاتا»» لذن مصمميه لم يبنوا - من حيث 
المبدأ - النظام وفي ذهنهم انشغالات تتصل بالتنقيب في البيانات. 

ويمكن القيام بالصلاحية المتبادلة لطية-ك مباشرة بواسطة برنامج يولّده 
المستخدم. يُدعى الطية المتبادلة (050551010)), (2012 10801615). وتستخدم الطية 
المتبادلة صياغة (:53/813) («الستاتا» التالية: 


(19) عط ,5تة55< 915ل( 5وع87 1 210551010 


ويمكن استبدال «الانحدار» في هذه الصياغة باللوغاريثم (10811آ) أو مقدّرات 
(8]015ناو8) أخرى. ولسنا واثقين - التوثيق لا يخبرنا بأي شىء - على وجه 
التحديد, من عدد المقدّرات التي تدعمها الطية المتبادلة. وعلى 5 فهي تقدم 
إحصائيات تطابقية انطلاقا من نماذج ك (1) (مع اختيار الباحث ل ك (1). وتسمح 
باختيار الإحصائيات التطابقية - خطأ جذر متوسط المربعات (801451), خطأ 
المتوسط المطلقء أو 8 - الزائفة. وثمة نتيجة نموذجية» يبينها الجدول رقم 1.5» غير 
أنها لا تمثل تقنية الصلاحية المتبادلة الأكثر إفادة» بل تقدم اختبارات ك ©1) المستقلة 
لنموذج ما. 
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لسنا على دراية بروتين خ1 المعين» الذي ينتج صلاحية متبادلة كابحة عا 110108) 
(7©. وقابل للمزج بأي روتين تحليلي. هناك بعض روتينات 8» تدمج الصلاحية 
المتبادلة عبر الكابح (مع افتراض أن المرء سبق أن أنتج مجموعات اختبار وتداريب). 


0آ[1 


وتعد الصلاحية المتبادلة الكابحة بالنسبة إلى هذه الروتينات سهلة للغاية» في حين 
تعد صعبة بالنسبة إلى آخرين» صعوبة وجودها في «الستاتا». 1 

ومع ذلك. توجد روتينات الصلاحية المتبادلة لطية-ك في 18. وإن 2ماع.7© 
واحدة من روتينات الصلاحية المتبادلة لطية-ك. التي تعد حدسية بخاصة. وهي جزء 
من الحزمة التي يطلق عليها اسم بوت (2010 تإعامنآ ممه موت ) . وتستخدم في 
عملية صلاحية متبادلة تهم نماذج خطية عامة تطابقية سابقة. ويمكننا تسمية ذلك 
باستخدام الصيغة التالية: 


!1 راأططاع بقنه0) مساع .باع كانى 


وحيثما كانت البيانات (108]8)» تمثل مجموعة بيانات (102]8561) ماء إلا ومثلت 

لطاع النتائج لتطابق خطى عام سابق للنموذج. من خلال استخدام البيانات» و10) 
228 

تعود متجهة العددين: تطابق صلاحية متبادلة» وتطابق صلاحية متبادلة معدلة 

# 
(إذا أدخلت قيمة ل (10)» عوض إسقاطها من الصلاحية المتبادلة المفترضة)!. ومُنح 
العدد الأخير لأن عملاً إحصائياً ما يقترح إمكانية أن يولّد إسقاطه قيمة ل 0!) من 
الصلاحية المتبادلة» تقديرات متحيزة لتطابقية الصلاحية لإعاعلصذآآ لطة ده5ل12301) 
(1997. من أجل هذاء ينجز البرنامج بعض العمليات للتعويض عن هذا التحيز. 


«غامب برو) 
تعد الصلاحية المتبادلة سهلة للغاية في «غامب برو»» وتتم بطريقتين. فبالنسبة 
إلى بعض الروتينات المتمذِجة» يتطلب «الغامب برو» توفير متغير صلاحية - أي 


(3) وفي حالة إسقاط قيمة ل ك 1) من الصلاحية المتبادلة» بالنسبة إلى مجموعة بيانات تضم ترصدات 8 


يبنى نموذج ما على ترصدات 2-1» وبعد ذلك. يتم اختباره على الترصد المتبقي. ويتكرر هذا © مرات. وفي 
الحقيقة» يعد إسقاط قيمة لاك () من الصلاحة المعادلة جالة خاضة من الصلاحة المتادلة لطيتدك» 
حيث ك (10) مساو ل. (المترجم) 
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متغير اسمي (518616ة/1 710210281)» يضم قيما مختلفة تشير إلى أقسام التدريب 
والأختباق. وتداعو الاحاجة إلى متغيز يم فيه تعيين القيم بشكل عشواتي في السب 
التي نرغب فيهاء على أن يتم ذلك بسهولة عالية. وفي القائمة الرئيسة «للغامب برو)» 
انقر كولز نيو كولم (متسصس[ه© برعل 15ه©). أما الويندوز (7/120015). الذي يفتح» 
فهو مبين في الشكل رقم 1.5. 

ونغير اسم العمود (00110172)) من القيمة الفرضية (]10619101) إلى قيمة مضبوطة 
أو صالحة (1/8110) (كما هو الحال في الصلاحية (9/21103]05)). ونغير النوع 
المنمذج (3840061128) من القيمة الفرضية المستمرة (0026100115) إلى اسمية 
(21021081)» وبعدها ننتقي عشوائية تحت قائمة مهد البيانات (12218 1126ةاتمآ). 
ويمكننا ذلك من اختيار توزيعات مختلفة» تُسحب من: العادي. والمتجانس أو 
المنتظم (11214012). والثنائي ذي الحدين (وهو ما يسحبه الدال العشوائي 
(:1001620 30000 1)). وننتقي الدال العشوائي» ونغير النسب للقيمتين 0 و1 إلى 
5 و 0.5 (وتحدد قيمة 2 في 0). وببساطة» فإن نقر >01)» يستمر في توليد متغير 
الصلاحية. كما يمكن ببساطة إدخال المتغير في مجالات الصلاحية «ويندوزات» 
لاحقة من «ويندوزات» بناء النماذج» كما هو الحال في البرنامج (مسمقاط) المنقذ 
للانحدار التدريجي (5150وء2عقء1 0156ام5]6)» والمبين في الشكل رقم 2.5. كما 
تملك برامج (213]10525) أخرى لنموذج ما مواقع صلاحية متبادلة مدمجة 
(15-انت8) في الغامب (10415). وعلى سبيل المثال» يمكّن برنامج التقسيم 
(2811110) (بالنسبة إلى أشجار التقسيم) الباحث من الإشارة إلى «قسم الصلاحية» 
(100ره2 101106105) في «ويندوز» برنامج النموذج الأساسي. كما كه 
المستخدمين من اختيار الصلاحية المتبادلة لطية-ك في «ويندوز» المنقذ للدموذج. 
وتمكن الشبكات العصبية كذلك المستخدمين من تحديد قسم كابح. وسنعرض إلى 
ذلك بتفصيل أكبر في شجرة التقسيم وأقسام الشبكة العصبية أدناه. 
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مما عمموجم عناة/ا كعوع ثلا ومممقة © 


-< م أصممانمنا همهم 6 
05 1 3 أقصوما؟! مملمقة © 
0 2 )ماق ألما مومه © 











الشكل رقم 2.5: إضافة الصلاحية المتبادلة للانحدار التدريجي في ١غامب‏ برو). 
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ومنامك اهيا كحة تكعا ,نم12 © ادع امه مم1 9 


سفن  [‏ وصس] سس 


فا 2-9 


- علولا ممبدهند/ا أعطها 


10056 
”5“ نمه *2* "١",‏ معراة؟ لعماعل معديه عونا © “وعنلةلا 
كعنلد/ لعرزاء 0 جرع لكيه ما كاعطدا لرعمجية © 
كعباله كد واعمها عونا © 


ص عد سد ممه | 





الشكل رقم 3.5: الصلاحية المتبادلة في نموذج الحزمة الإحصائية للعلوم 
الاجتماعية (5255). 


نموذج الحزمة الإحصائية للعلوم الاجتماعية 

إن نَموذّج الحزمة الإحصائية للعلوم الاجتماعية» أي حُزمة محلل البيانات 
المتخصصة في إحصائية العلوم الاجتماعية يسهّل الصلاحية المتبادلة بخاصة» عن 
طريق الكابح (110106861). وإن البرنامج الذي سنصفه لاحقاً بتفصيل أكثرء يشمل 
توليد تدفقات (5]563125) عمليات إحصائية عبر الإشارة والنقر -20ة-غطأه2) 
(1161©؛ بحيث يضم كُل تدفق اعَقّداً؛ (2/0069): قادرة على إنجاز عمليات» ولكل 
عقدة (ويندوز) مرتبط» يمكن من خخلاله مواءمة معلمات متعذدة. ويتم انتقاء العقد 
من «لوحات الألوان» التي تضم عقداً مماثلة. 


وفي مجالات لوحات الألوان» اختر عقدة التقسيم» وانقر مرتين كي تفتح الشاشة 
المبينة أعلاه في الشكل رقم 3.5. وداخل العقدة - كما يمكن مشاهدة ذلك - يمكن 
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للمرء تعيين انهيار عينات التدريب والاختبار (والصلاحية). ويولّد ذلك متغيراً يُدعى 
التقسيم (أو اسم آخر إذا ما غيّره الباحث)» الذي يمكن انتقاؤه بصفته متغير صلاحية 
في نمذجة العقد. 
ويمكن إنجاز طية-ك أيضاً لفائدة بعض التطبيقات الأخرى في النموذج أو 
«المودلير» (81006165) (أقرب الجيران ل «ك». شجرة التقسيم 20.5 الشبكة 
العصبية)» ولكن داخل العقد بالنسبة إلى هذه العمليات النموذجية المحددة» وليس 
باعتبارها عقدة منفصلة. 
وظلت آي بي إم تحسن من إحصائيات الحزمة الإحصائية للعلوم الاجتماعية 
(5855) - وهو برنامج الإحصائيات المنتظمة المستخدمة في مئات الفصول 
الدراسية الجامعية - من خلال تطبيقات التنقيب فى البيانات المتعددة. وإن لبعض 
من هذه التطبيقات خيارات داخلية بالنسبة إلى الصلاحية المتبادلة. ومع ذلك» من 
السهل - بما يكفي - تقسيم أي مجموعة بيانات من بيانات الحزمة الإحصائية للعلوم 
الاجتماعية إلى قسمين عشوائيين - بالنسبة إلى التدريب والاختبار على حدّ سواء - 
باستخدام الصياغة العادية للحزمة الإحصائية للعلوم الاجتماعية. وفي المثال أدناف 
قمنا بتقسيم بياناتنا عشوائياً بحيث حُدّدت 80/ من الحالات» باعتبارها تدريباً 
وحدد ما تبقى (20/) باعتباره اختبارا؛ هذاء وبإمكان المستخدمين اختيار نسبهم 
الخاصة بهم. ويمكن قراءة الصياغة على النحو التالي: 
مآرآث 1158 
.(80. > > (1) مناه ]لطن - 5_نع 1111 0011210115 


5 عط 015 90 80 لإأ2121اءام1ممة' 5_ع 1111 ماطظذ][ 1148115 خا 
.هه ) 


.(21.0) 51:65 كتهلات8 20 
5 5/16 81 2111181 


2029 
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11112 011 

01 مغضآ (1 ع 1) (0 ع 0) 5_تتع غ51 علمعع8. 

. “أ5ع] 01 1521111118' 0263810102 أع136 عنة7١‏ 

'أع02135 31211285' 1 *أء02]35 أوع)' 0 منامزع 1263 ذ5اع136 عنا1ة؟١؟‏ 
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وتأخذ مجموعة البيانات (08ا103]8870) المتغيرة قيم 1 بالنسبة إلى الترصدات 


التي تم إسنادها بشكل عشوائي إلى 80/ من فرعية التدريب» 0 بالنسبة إلى تلك 
المستخدمة فى فرعية الاختبار. 
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(لفصل السااس 
أدوات انتقاء المتغير 


عندما تُحلل بيانات ضخمة. نواجه سيلاً من المعلومات» ولدينا حالات عديدة» 
أو معلومات كثيرة عن كُلّ حالة من أجل استخدام فعال لمناهج إحصائية معيارية. 
وسبق لنا أن رأينا كيف أن مسألة امتلاك حالات كثيرة جداًء يمكن أن يتسبب في 
توقف البرامج أو في اشتغالها ببطء على نحو غير ملائم؛ كما رأينا كيف يمكن لهذا 
> أحيانا - أن يحاول سبناطة عن طر يق معايدة بياناثنا::وتظهر جالة اكت تعقيدا عندها 
تكون لديئا معلومات كثيرة جداً عن كَل حالة» وبتعبير آخر عندما تكون لدينا متغيرات 
أكثر مما ندرك ما نقوم بها. 

ويستخدم مختصون في التنقيب في البيانات» حرف 77 للإشارة إلى عدد 
الترصدات أو الحالات. وحرف ‏ للإشارة إلى عدد المتغيرات» أو المتنبئات» أو 
السمات. وفى الحالة التى تكون فيها 2 كبيرة جداء نبحث عن تقنية تقلص مقدار 
المعلومات التي تباج في المعالاجة من خلا انتقاء تلك المتغيرات ذات الأهمية 
القصوى والتخلص من الآخرين. 

ثمة حل للتحول إلى مجموعة من التقنيات» تدعى طرق انتقاء مجموعة فرعية 
(دمناءعاء5 أء565): أو طرق الضبط. وقد تم تطوير هذه النوع من الطرق - ديا 
- من أجل أتمتة عملية انتقاء المتغير» (ولهذا السبب نفسه. فهي غالبا ما تتتقد من قبل 
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محللى بيانات تقليديين لكونها غير نظرية (2»)415260161168[1 ومقيدة بالبيانات)» 
وتعمل الطرق قيد البحث. من خلال استكشاف - من بين قائمة طويلة من المتنبئات 
- تلك التي تؤدي أداء جيداً من حيث شرح التباين على مستوى المتغير التابع. 


وقد كان الانحدار التدريجي الروتين «المؤتمت» الأول الذي تم تطويره لاختيار 
المتغيرات» وهو لا محالة, الانحدار الذي لقى استهجانا شديدا - بشكل متكرر - من 
فل" الرإفضين الوذه لكر رميات دوس قوير الا تعدار اللدوييي حالس إن 
حالات رُزْقٌ فيها باحث ماء بوفرة المتغيرات المستقلة في مجموعة بيانات (أي م 
كبيرة)» لكن لديه إطار نظري محدود أو منعدم لاختيار الأنسب منها لضمه إلى نموذج 
ما. ومن المحتمل أن تبقى الحالة نفسها التي تستعمل فيها في معظم الأحيان» ولكن 
هناك حالات أخرى يمكن أن تستعمل فيها بشكل مثمر» ويكون لاستعمالها - على 
ما يبدو - أكثر من مبرر. 

وفي تجربتناء يمكن استخدام الانحدار التدريجي ليس فقط للتخلص من أعداد 
هائلة من متنبئات محتملة» تمثل التأثيرات الرئيسة» بل أيضاً للتدقيق فى الشروط ذات 
الترتيب التفاعلي العالي بين المتنبئات. لنتصور أن لدينا الا عكر متطين نيتية نود 
ضمها إلى نموذج ما. ولكن نريد أن نكون واقعبين بشأن حقيقة أن العالم لا يضم فقط 
التأثيرات الرئيسة:» وإنما أيضاً التفاعلات بين المتتبئات» ونريد أن تأخذ بعين الاعتبار 
إمكانية تفسير بعض التفاعلات» تباينا جوهريا فى متغير النتيجة ©050ع]011) 
(513616/. وإذا ما رغبنا في ضمّ تفاعلات في الحافية: فإن عدن السمات أو 
المتنبئات في النموذج ترتفع من 12 إلى 88. كما يرتفع هذا العدد إلى 100 إذا ما 
عملنا أيضأ على ضمّ القيم التربيعية - تفاعلات متغير ما مع نفسه - للسماح بعلاقات 
منحنية الأضلاع بين متنبئ 6 والنتيجة لا. وإذا ما قررنا أيضا السماح بتفاعلات من 
ثلاث اتجاهات. (لنقلء. بالعمر. والجنوسة» والدخل)» فسيصل عدد المتنبئات فى 
لوقح 320 سين وهم اللقه لبمى كل تلك 210 وهر حعلق ماجا د - ميمة 
الخصضافاء أو هات أذاك لاله أ أحهمة : إذن رد انا تعس يجاذ ده خوار زمية اغعار 


سمة ماء التي تستطيع أن تخبرنا بالمتغير المهم من بين هذه 320 متغير. 


وتعمل إجراءات الانحدار التدريجى من خلال إحدى الطرق الثلاثة» بحيث تبدأ 
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الأولى - الانتقاء الأمامي (56160102 1:015:50) - بنموذج يضم فقط متغير اعتراض 
(0مء126:0). وبعد ذلك تفحص كُلّ متغير مستقل على حدة. وتختار «الأفضل» 
(وسنعود إلى كيفية تحديد الأفضل بعد حين). وبعد دخول هذا المتغير في النموذج 
التنبؤيء يعيد البرنامج هذه العملية» مع اعتبار المتنبئات المرشحة المتبقية مراراً 
وتكراراً - بإضافة متنبئ متفوق في الوقت نفسه - إلى حين اختيارها النموذج 
«الأفضل» (ومرة أخرى سنحدد ذلك لاحقا) . 


أما الطريقة الثانية للإزالة الراجعة (60همنصناظ لمهماء82). فتبداً بضم م كَل 
المتغيرات المتاحة فى انحدار أولى» وبعدها تختبر كُلَ واحدء للنظر فى المتغير الذي 
يمكن أن يكون إقصاؤه من النموذج أمراً مفيداً. وتنتهي بنموذج أكثر انخفاضاً من 
حيث عدد المتغيرات «المعتمدة». وأخيراء ثمة طريقة معروفة بالانحدار التدريجى 
الأمامي - الر اجع (مهأووععع 1 عوانتامع51 0ه تتكاعة8 -220 1كز1”0) تجمع 0 
الانتقاء الأمامي والإزالة الراجعة» كما يبين الاسم ذلك. ومثلها في ذلك مثل الانتقاء 
الأمامي. فالطريقة تبدأ بنموذج صفري/ عدمي (810061 11:ا80)» وتدخل متغيرات 
بشكل تكراري عندما تلبي معياراً ماء ولكنها أيضاً تزيلها (في حالة ما) وعندما تنزل 
بعد ذلك تحت عتبة مناسبة. 


ويتم انتقاء المتغيرات سواء على مستوى ضمها أو إقصائها من خلال إحدى 
الطريقتين: أما الطريقة الأولى» فتضم استخدام قيم- م بالنسبة إلى متغيرات المتنبئ 
الفردي. مثلاً» قد يعطي الباحث تعليماته للبرنامج بضمٌ متغيرات فقط إذا كانت تتوافر 
على قيم-5, تصل إلى 0.05 أو أقل من ذلك» وتقصيها إذا ما تجاوزت قيمتها0.10. وإن 
معيار إدراج المتغير هذاء الموجه بالكامل نحو المتنبئات الفردية» هو ما يستخدم 
ان حا يي د 00 «الستاتا» (هأها5). 
الشاملة أ اعامة؛ بحيث عادة ما يوجد قياس يقب نموذجاً. ماء الإضافته مزيداً من 
(810)» ومعيار بايز للمعلومة (810)» وقيمة «مالوز» ,©. ويتم ضمٌ المتغيرات أو 
حذفها على أساس التحسن الذي يقوم به كل متغير لفائدة نموذج الانحدار بشكل 
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يتم اختيار «النموذج النهائي» بطريقة تشبه طريقة اختيار المتغيرات الفردية. وإذ 
ماتم استخدام قيم- في انتقاء المتغير» فستتوقف الخوارزمية في بناء نموذج انحدار 
تدريجي بمجرد وجود كُلَ المتغيرات التي تستجيب للمعايير المحددة للباحث في 
النموذج (مثلاً» كل المتغيرات في النموذج لديها قيم - 0.05 أو أقل» ولا يدخل أي 
متغير آخر في النموذج الذي قد يكون له هذا النوع من قيمة-5. ومن ناحية أخرىء إذا 
تم استخدام إحصاء تناسبي عام» فستختار الخوارزمية النموذج الذي يحسّن ذلك 
الإحصاء التناسبي - أي النموذج الذي يملك أعلى قيمة معذلة» أو معيار بايز للمعلومة 
الأقل انخفاضا. 

وكلا الطريقتان سريعتا التأثر بخطأ النوع 1 لأنه لا يتأثر - على الأرجح - بإيجاد 
خطأ واحد. المرتبط بالنتيجة بشكل كبير» في مجموعة متنبئات كبيرة» إلا بمحض 
الصدفة. وبينما قد يعد هذا واضحا جدا في الحالة المتعلقة بالطرق القائمة على 
قيمة-7 للانتقاء» ينطبق الأمر أيضاً على طرق الانتقاء التي تستخدم مقاييس عامة 
لتناسب النموذج. وبالنظر إلى وجود متنبئات كافية» سيكون لزاماً على المرء - 
بمحض الصدفة - رفع القدرة التنبؤية بشكل كاف لتجاوز عتبة الإدراج (الضمٌ). 

ويبدو أن أفضل الطرق لتجنب خطأ النوع 1. هي تلك الطرق التي تستخدم قياساً 
لتناسبية النموذج باعتباره «قاعدة توقف»». والتي تنتقي المتغيرات على أساس قيم-م» 
ولكن قيم-م التي تأخذ بعين الاعتبار قضية المقارنات المتعددة. وقد نطبق مثلاً 
قاعدة بون فيروني (16016 8021611001)» محددين قيم-7 في م لهء حيث إن هي 
مجموع عدد متنبئات مرشحة و »© هي 0.05. ومع ذلك. إن قيم-7 بون فيروني تعد 
صارمة جداً. وثمة مقاربة أخرى اقترحها (2004 5156 200 105]65), تفيد باختيار 
متغيرات في ترتيب تصاعدي بحسب إحصائيات اختبارها (513]15]105 1)) بدء بعتبة 
متحفظة. ورفع ذلك العتبة تدريجياًء بالتزامن مع العمل نحو متغيرات تنبؤية أقل. 

ومثلها مثل أي مقاربة أخرى تعتمد على البيانات» سيكون من المرجح جداً أن 
يفرط الانحدار التدريجي في تناسبية النموذج قيد الدرس (ولو أن استخدام عتبة أكثر 
صرامة للإدراج» سيحل هذا إلى حدّ ما). ومن ثم. يعد التحقق من البيانات انطلاقا 
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من مجموعة اختبار منفصلة للبيانات» أمراً مهماً. ولابد من نقل تناسبية الصلاحية 
المتبادلة وقت ما كان ذلك ممكناً. 

مثال في «الغامب برو 

سئبين أهمية استخدام الانحدار التدريجى للخوارزمية التدريجية «للغامب») الجن 
نرغب فيها بسبب الخيارات المتعددة لقواعد التوقف التى تمنحهاء وبسبب السهولة 
التى يمكن أن تضاف معها التفاعلات والمتغيرات المتعددة الحدود (501/0010121) 
إلى النموذج. (ومع ذلك إن الانحدار التدريجي متاح في حزمات إحصائية أخرى 
عديدة بما في ذلك الحزمة الإحصائية للعلوم الاجتماع (5255): ونظام التحليل 
الإحصائي (545)). 





الشكل رقم 1.6: الانحدار التدريجي في «الغامب برو). 
سنستعمل في هذا الشرح.ء بيانات صادرة عن مكتب تعداد مسح المجتمع 
الأميركي لعام 2010, التي سحبنا منها بشكل عشوائي مجموعة بيانات تهم 15000 
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المتحدة؛ وذلك باستخدام عدد ضغير - إلى حدّ ما - لمتغيرات التأثير الأساسية: 
المنطقة. العمرء الحالة الاجتماعية»؛ والاعتبار المهني؛ والعرق» والجئوسة. 
والمواطنة؛ والتحصيل العلمي؛ والحالة الوظيفية والالتحاق بالتعليم. 


ولتشغيل انحدار تدريجىء مستخدمين «الغامب) نتوجه إلى «حلل» (ع7812م)ء 
ونختار نموذج التناسب (5140061)(الشكل رقم 1.6). وفي الزاوية العليا اليمنى 
لعلبة حوار نموذج التناسب (80 ع1(1310 1آع5400 716)) ننقر القائمة الشخصية 
(نع 1/1 نا اتلهصموء) ونختار امتدرج ) (عواتزامع51))» كما نستطيع إضافة ترجيح 
احتمالية (متغير يدعى '5121818/1: المقدم من قبل المسح لتصحيح عدم الاستجابة). 
ونخبر البرنامج أيضاً باسم متغير صلاحية ماء الذي سميناه (صالح) وقمنا بإنتاجه 
سابقا في «الغامب» ونقسم عشوائياء مجموعة البيانات إلى مجموعة بيانات التدريب 
ومجموعة اختبار (في نسبة 2:1). وبعدها ننقر شَغَلٍ (5ذا14)» وهذا يفتح منصة 
الإطلاق التدريجي (212]1012 تاعصبة .1 عو تامع 5) (الشكل رقم 02.6 التي تعدد 
كُلٌ المتغيرات التي نضمها في نموذجنا. 
سح ل وهم ما عما عدت جيل > 





- 1 للع ار 
2-51 السفلضضية 
| #مميد مس | بمممحصة لو لمع >--د 
أمسهصتا ‏ جعه 
العا عع 
عكيدم وموك 2 
ميحد هقد 6لافصم| وطتيدما د (لانتصيه كوو لدان مشدادعد هدم للدي 
' --- - مسح ع امج © و 


آنه 
]1 


ا امات 
اس نمدا تت خشحم وعم مدو حددة جنا دوج ادن > ختز تلش عمنوسا) عنقم «اتقها سبد موحد جاحكة حيسجا «ااعمظر /<0ا اتوص جص إوم 02200000 
امسا مدنا جدمكراصوع 0ت عقصدة- :جا اناج خصصة عوج )امت ع0 

مدمدتا مهم العمهك جوومد0 جالمدتريوت مع 

وعحمندا نهنا «جذلة ؛<ا لدواجح بصا #جوطاالةا -<0 ام يض فاج صن مجن مدع رهف بمذا نات رم جاح تتد عل نادت ع سم مخضا ؤ 55000 





ات متت ات 1115/7151 
555 50505 55ت 


الشكل رقم 6.: مُخرج من الانحدار التدريجي في «الغامب برو). 


يجب علينا تفسير قيام الغامب» بشيء ذكي ذي متغيرات فتئوية» غير ثثائية التفرع 
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في انحدار تدريجي. وبدلا من عرض المتغير الفئوي (1/518016 02168011221). 
باعتباره مجموعة متغيرات وهمية لصفر أو واحد. مع حذف فئة خط أساسي واحدء 
يقوم «الغامب» بترميز الفئات تراتبياً. ويقسم الفئات أولاً إلى مجموعتين لهما وسائل 
متفاوتة بالنسبة إلى متغير الاستجابة» ثم يضيف متغيراً وهمياً لهذه المفارقة. وداخل 
هذين المجموعتين» تقسمها بعد ذلك مرة أخرى إلى مجموعتين أخريين على النحو 
نفسه. وهكذا. على سبيل المثال» تأمل ما قام به «الغامب» مع متغير «التحصيل 
العلمي)؛ فهو يقسمه أولاً إلى مجموعتين: أقل من المستوى الثانوي» مقابل كل 
الفئات الأخرى. ثم بعد ذلك يقسم هذه المجموعة الأخيرة إلى مدرسة ثانوية + كلية 
ما + غياب أي درجة علمية» مقابل درجة الزميلة + درجة الباكالوريوس + مستولى 
- أما المجموعة الأولى, فبإمكانها القيام بعملية التقسيم مرة واحدة» 


- في حين إن المجموعة الثانية تنقسم مرة أخرى إلى درجة الزميلة + درجة 
الباكالوريوس مقابل مستوى أعلى من درجة الباكالوريوس. 


وتتمحور الفكرة في كون أن هذه المجموعات تم تجميعها تراتبياً على مستوى 
النتيجة بحيث تبقى المجموعات ذات معدلات أكثر تماثلا على مستوى متغير 
النتيجة» مجتمعة ضمن مجموعة واحدة. وهذا الاختلاف التراتبي لديه فائدة السماح 
للبرنامج باختيار نموذج انحدار أكثر تقتيراً من نموذج يضم كل القيم المنفصلة لمتغير 
فئوي باعتبارها متغيرات وهمية إذا كان ذلك التقتير مفيد لتناسب النموذج. وكما هو 
مبين في لقطة الشاشة (الشكل رقم 2.6): فلقد حددنا متغير صلاحية» وبالتالي 
سنستخدم الحدٌ الأقصى لصلاحية 17 كقاعدة توقف. وعتبات قيمة -م (تدخل 
النموذج وتغادره)» والحدّ الأدنى لمعيار (410) أكايكي للمعلومة والحد الأدنى 
لمعيار بايز (810) للمعلومة. ثم نحدد الاتجاه الذي يجب على الخوارزمية التدريجية 
المضي قدماً فيه» ونختار الانحدار التدريجي. أما الخيارات الأخرى» فتدعى الخيار 
الراجعة (82361553105). والخيارات المختلطة (84160)» بحيث يكون هذا الأخير 
متاحاًء فقط عندما تستخدم قواعد التوقف لقيمة-م. 
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إن قائمة القواعد (0165ا10) ترتبط بمتغيراتنا الفئوية المنظمة تراتبيا إذ إن في 
الإعداد الافتراضى (56]128 10»]91114)., وادمج (عصاأطمدطه0)).» والخيار «المقيد». 
كي أخقاء كماية بالغ الدقة؛ إدراجا تلقائا لبلجمعات وقيفة الششوئ: وإذال 2 
ع 2 2 8 ع .2 - 8 
ترغب فى ذلك. غير الإعداد إلى «لا قواعد» (811165 710) (وهو الأمر الذي لا ننصح 
في خوارزمية تدريجية «للغامب»؛ أي إن انتقاء تفاعل ماء سيؤدي تلقائياً إلى إدراج 
متغيرات مكونة كلهاء اللهم إلا إذا لم يتم انتقاء «لا قواعد» (11165 2/0). 


يسمح لك «الغامب» بتشغيل البرنامج خطوة واحدة فى كلهرة لمعاينة تطور 
النموذج. أما الخطوة الأولى في نموذج التأثيرات الأساسية فقطء فتضم الاعتبار 
المهني» وتبلغ 12 من 0.21. وتضم الخطوة الثانية العمر الذي يرفع 12 إلى 0.36 
متبوعاً بمؤشر بالنسبة إلى بالغين عاطلين في سنّ العمل (12-0.44). وعندما نسمح 
بتشغيل الانحدار التدريجي إلى النهاية» واختيار النموذج الأفضل لتنبؤ الدخل 
الخوارزمي» تستمر الخوارزمية في انتقاء 24 معلم» وتبلغ صلاحية 17 من .495 كما 
هو مبين في الجدول رقم 1.6. ويمكن رؤية تطور تناسبية النموذج» من خلال اختيار 
- في أعلى الزاوية من ويندوز المُخرّجٍ - قائمة «المثلث الأحمر)» تاريخ المعيار 
(/11151015 له قتاع 01)). ثم تاريخ مربع 1 (عةنان18-5). (ويحتوي العديد من 
ويندوز «الغامب»» قوائم تدعى المثلث الأحمر الذي يشير إلى الأسفل). وعلى 
الرغم من أن هذا الكتاب تم طبعه بالأسود والأبيض» سنظل مع ذلك نشير إلى هذه 
القوائم باعتبارها مثلثات حمراء»). وكما هو مشار إليه في الشكل رقم 23.6 إن معظم 
التحسن الواقع في تناسبية النموذج» تم بلوغه في العشر خطوات الأولى» ولم يتم 
بلوغ تحسينات متواضعة جداً إلا بعد عشرين خطوة أو متنبئات. ومع ذلك» يستمر 

بكل تأكيد» نستطيع القيام بأفضل من هذا من حيث التناسبء إذا ما أدرجنا 
متغيرات تفاعل» من خلال اختيار نموذج الإعادة ([ع1100 طاعصنداع]1)» الذي تعيدنا 
إلى علبة نموذج التناسب. ونضع الآن الدرجة (168766) في 2 (بالنسبة إلى متغيرات 

5 5 و 

تفاعل من اتجاهين). وفى علبة اختر الأعمدة (001111505 5©1601)» نبرز كل متغير اتناء 
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ثم 0 من قائمة ماكروس (1130505). (ع106876 10 [12010118). وتدخل هذه 
تلقائيا كل التفاعلات الممكنة في اتجاهين باعتبارها متغيرات مرشح. ومن أجل 
قياس جيدء ندرج أيضا متغيرات تربيعية بالنسبة إلى العمرء والاعتبار الوظيفي. وفي 
هذه المرةء يأخذ البرنامج 54 خطوة لبناء النموذج الأمثل على مستوى تناسب 
الصلاحية. وأصبح للنموذج المنتقى حالياً 87 من 0.6123 في مجموعة التدريب» 
و.0.6064 في مجموعة الاختبار» وأدخلت 68 معلم في النموذجء» بما في ذلك 
متغيرات التفاعل. 


وتعد العديد من المتغيرات المنتقاة تفاعلات» تثير إدراج المتغيرات المكونة. 
ومن ثمء فإن كُل متغيرات التأثير الأساسيء استعملت - إلى حدّ ما - في النموذج» 
ولكن ليس كُل الفئات المنفصلة للمتغيرات الاعتبارية (1581ج710) أو الفئوية تم 
استخدامها. على سبيل المثال» لم يتم إدراج إلا ثلاثة مناطق تباينات» ولم يتم تصنيف 
متغير التحصيل العلمى بالكامل. 

وفى نموذج من هذا التعقيد حيث استخدام العديد من التفاعللات» إلى جانب 
تجمعات الفئوية» يصبح تفسير المَعْلمات أمراً صعباً. وإذا ما درسنا مَعْلِمِ العمر» 
مثلاء فسنجد أن النموذج قد اختار التأثير الأساسي للعمرء والمتغير التربيعي؛ وثمانٍ 
متغيرات تفاعل تتضمن العمر. وهنا تظهر مقايضة قوية بين الدقة التنبؤية وقابلية 
التأويل. وبهذه الدرجة من التعقيد» يكون من الصعب - وإن كان غير مستحيل - 
تأويل فقط ما سيكون عليه تأثير تغيير وحدة واحدة في العمر على الدخل». ومع 
ذلكء إن إدراج متغيرات التفاعل هذه قد زاد من الدقة التنبؤية الخارجة عن البيانات. 


الجدول رقم 1.6: نموذج انحدار التأثيرات الأساسية. 


/ 2 
المنطقة: غرب جنوب الوسطء جنوب المحيط الأطلسي 
2 0 ووج بعرت الم 1 000 011 
والهاديء مقابل أخرى 
المنطقة: غرب جنوب الوسط. مقابل جنوب المحيط الأطلسى ‏ 0.097- 001 
المنطقة: جنوب المحيط الأطلسي. مقابل الهادي 005 028. 
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المنطقة: متتصف المحيط الأطلسي» جنوب شرق الوسط» 
الجبل» مقابل شمال شرق الوسط» شمال غرب الوسطء 
وبريطانيا الجديدة 

المنطقة: شمال شرق الوسط. شمال غرب الوسطء مقابل 
بريطانيا الجديدة 

المنطقة شمال شرق الوسطء مقابل شمال غرب الوسط. 
العمر 

الحالة الاجتماعية: لم يسبق له الزواج قطء متزوجء الزوج 
غائبء مقابل منفصلء متزوجء الزوج حاضرء أرملة وطالق 
الحالة الاجتماعية: متزوج. الزوج حاضر وأرملة» مقابل طالق 
الحالة الاجتماعية: متزوج» الزوج حاضرء مقابل أرملة 
الاعتبار المهني 

العرق: آخرء مقابل أبيض 

العرق: أميركي أصلي ولاتيني» مقابل أسود. آسيوي» وآخر 


ع 
50 


أنثى 
غير مواطن 

التعليم: أقل من درجة التعليم الثانويء مقابل الباقي 

التعليم: المدرسة الثانوية» وكلية ماء مقابل 14 و8 وأعلى 
من ذلك 

التربية: التعليم الثانوي مقابل بعض الكليات 

التعليم: 4.4 و84 وأعلى من ذلك 

عاطل 
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خلاصة 


يمكن استعمال الانحدار التدريجى قى انتقاء - من أصل مجموعة كبيرة من 
المتغيرات الممنتقلة - تلك المتغيرات المستقلة الأكثر تنبؤاً. وعموما فهو يستعمل 
فى سياقات حيث لدى باحث ماسمات فى مجموغة البيانات. ويمكن أيضأ استعمال 
التقنية لتحديد تلك المتغيرات التفاعلية بين المتنيئات الثى تحسن القوة التنبؤية 
لنموذج ما. وعادة» ثمة العديد من متغيرات التفاعل الممكنة ويمكن استعمال 
الانحدار التدريجي للكشف عن المتغيرات المفيدة. 








ومن الأفضل استخدام الانحدار التدريجي بنوع من الصلاحية المتبادلة» لأن 


137 


هذه التقنية ستفرط في تناسبية البيانات. ومن ثمء فإن 82» أو الإحصائية التناسبية 
لبيانات التدريب ستكون عالية بشكل مصطنع. ومع ذلك إذا اهتم الشخص بالقوة 
التنبؤية لنموذج ما من أجل عينة الاختبار» فإن التفريط في التناسب لن يصبح مشكلاً. 
وإن “1 بالنسبة إلى مجموعة بيانات الاختبار هو مقياس صالح للقوة التنبؤية لنموذج 
الانحدار. 

اللاسو 

كما“تنت الاشازة إلى ذلك يصن عضن !الملل نو :شان" الاتحداد 
التدريجيء مثلما يتتقصون من شأن العديد من مقاربات التنقيب في البيانات» والذين 
يرون الطريقة باعتبارها تجرد يفا للبيانات» (8طذعلع:0آ 10268 01 قصنتطذ1 1 10218) غير 
نظرية. ويرى هؤلاء الباحثون أن تحرك النمذجة الإحصائية نظرية حول العمليات 
السببية والمتغيرات التي تمثلها. ولكن الانحدار التدريجي تعرض أيضاً للنقد من 
داخل الحقل المعرفي نفسه الذي يبحث في التنقيب في البيانات. ويشير هؤلاء النقاد 
إلى أن طبيعة عملية انتقاء متغير - أي ضمٌ المتغيرات أو تركها - يجعل الانحدار 
التددريجي غير مستقرء ومن ثم غير موثوق به إلى حد ما. وإن التغييرات الصغيرة في 
البيانات» مثل معاينات (11385م5310) عشوائية مختلفة مأخوذة من مجموعة أكبر من 
الحالات. يمكن أن يقود إلى اختيار مجموعات فرعية من المتغيرات من لدن 
خوارزمية تدريجية. والطريقة التي عوض أن تحتفظ بالمتغيرات بالجملة أو تتخلص 
منهاء تقوم بانتقاء أكثر تدرجاً واستمرارية» تبدو مفضلة. 


إن «اللاسو) (الذي يشير إلى الانكماش المطلق للغاية. وإلى مشغل الانتقاء)» 
يمثل هذه الطريقة بالذات. وعرص حرام ان عمايللات التعدار اللمردج على جو 
تنكمش فيه تلك المتغيرات الأقل تنبؤاء نحو الصفر. وهذا يجعل «اللاسو» مماثلاً في 
الشكل للإزالة الراجعة (8261/2505) للانحدار التدريجي . وخلافاً للإزالة الراجعة» 
كما إن تبسيط النموذج في «اللاسو» لا يحدث عبر تأسيس عتبة عشوائية. وإن الطبيعة 
التدريجية لعملية انكماش «اللاسوا. يعنى أن إدراج متغير ما أو إقصاءه» لا يؤثر 
بشكل مباشر وعميق في معاملات تلك التي بقيت. ومن ثمء فإن «اللاسو» أكثر 
0 

ورياضياء يرتبط جزاء «اللاسو» بمجموع القيم المطلقة لمعاملات الانحدار 
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(وهذه هي مسافة «مانهاتن» أو تجمع المدينة للقوة الموجهة للمعامللات» التي تدعى 
أيفياً مغيان ,ي[) :اده يغلدمًا يكم تتعيد كل المتدبشات باعتبارها الفرق المعياري عن 


متوسط القيم -2 (2-5001©5). وفى صيغتها الأولى (1996 ولمفتتطوط11)» تم تقييد 
مجموع هذه القيم المطلقة لتصبح أقل من معلم تضبيط» ). وإذا خحَدّدت ‏ أكبر أو 
تساوي المجموع المرصود للقيم المطلقة للمعاملات من نموذج المربعات الصغرى 
العادية (01.5) للخط الأساسي (83561106): فلن يحدث أي انكماش وستساوي 
تناسبية «اللاسو». وإن لدى عملية تقليص معلم التضبيط هذا إلى أدنى من ذلك 
بعرم الب مودق المعاملات. 0 تباينات «أخرى 0 الطريقة التي 

ولبيان ذلك» نبدأ بعرض نموذج مربعات صغرى عادية بشكل كامل. متنبئين 
بنسبة الأصوات لدى أوباما في العام 2012 في محافظات الولايات المتحدة. وهذا 
الانحدار «العادي» سيستخدم كمؤشر مرجعي (8620121811) نقارن من خلاله 
«اللاسو». واخترنا هنا مجموعة كبيرة إلى حذ ماء من المتغيرات المستقلة - 22 فى 
المجموع - التي تصف أبعاد ديموغرافية متعددة لهذه المحافظات (الكثافة السكانية» 
والمزيج العرقيء وبنية العمر.ء والخصائص الاقتصادية. وغيرها). وقد بين الجدول 
فطلو اسار وللتيقن من أهمية هذا النموذج في حد ذاته» وأنه يفسر 
نسبة جيدة من التباين ذ فى التصويت: 1/58 ولكن. وبشكل واضح» لدينا بتعض 
المتنبئات المترابطة. رق نوع مراع أكثر تكردا وتقكرا. وص تقل منافية اوداز 
لاستخدام «اللاسوا. وثمة برنامج «الستاتا»» المقدم من لدن المستخدم الذي ينفذ 
«اللاسو» («اللارس» (1.355) يحدد وظيفة «اللاسو“)» ولكن يظهر أنه في بداية 
مراحله من التطور. وتوجد القدرة من أجل «اللاسو) ذ في «الغامب برو» 12. وفي 
إحصائيات الحزمة الإحصائية للعلوم الاجتماعية (5855), مادام يشتري الشخص 
حزمة فئات الحزمة الإحصائية للعلوم الاجتماعية. ولدى 18 - على الأقل - روتينان 
(1601111265 1530) ينجزان «اللاسواء ويسميان «بينلايزد» (262811260). و«لاارس». 
وهما متاحان عبر الرابط: 01311.1010[6061.018. وسنفترض ألفة خط أساسي مع 34 
مع التركيز هنا على حزمة «بينلايزد) 820 1[165ء24 ,مقدطاء00) :2010 ,مقمصرءه00) 
(2012 نلتاع تتلطقطت . 
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ونبدأ بدعوة بسيطة لدالة 8» بما فى ذلك الإعدادات الافتراضية فى الغالب» 
+رء650157ع8534+28 1عع28+ 8 1[ غأاءع020615+28م053123-12) 0ع22112عم- > 135501 
آلء+صسطلء + تعطاع تطلع + ماد ازعم جاع 2 1 ازعم 5125 جاع مجع ]1 نتكرعم + 11105 


ع1 5200 0ج 01-5 011701662-+017_0 جاعم + تداع ] مرطدع م7121 مصاع مط قط 


500 > 21لطمطها ,1619 ممتلعط+ عم نلعص+ صمحم معع0 +ع 2 1عطط 0110م 
(11101' - ع202:012ها5 


الجدول رقم 2-6: نتائج من انحدار مربعات صغرى عادية تتنباً بحصة أوباما 
من الأصوات ضمن بيانات على مستوى المحافظة. 





المتغير المعامل (517) المعامل المقعّد 

الكثافة السكانية (108) ***(0.157) 2.398 028 
/ أقل من 18 عاماً ***(0.101) 0.775 0177 
/ بين 34-18 عاماً ***(0.0710) 0.534 0177 
67 وأكثر ***(0.100) 0.636- 019 
/ البيض من غير الإسبان ***(0.0311) 0.476- 065 
/ أسيوي (0.116) 0.165 0260 
السود من غير الإسبان (0.0309) 0.0147 0245 
ااانه **(0.0360) 0.0748- 01001 
ا 5 كلية ***(0.0613) 0.563 9 00 
/ خريج ثانوية فقط ***(0.0477) 0.314 017 
سارف لبر نجام ***(0.0514) 0.214 0106 
الثائري 

معدل البطالة لدى الرجال ***(0.0729) 0.920 022 
معدل البطالة لدى النساء -(0.0795) 0.0808 0104 
معدل الفقر ***(0.0642) 0.249 0101 
/ مولود بالخارج ***(0.0643) 0.174- 010027 


10 


/7 طالق **-(0.0424) 0.104 038 


0 بر نكواتتن الج ***(0,582) 1.718 02214 
بقفسة 
/ بروتستانتى أنجليكانى ***(0.0133) 0.277- 0-04 
معدل 05 لاد 00 ***(1.341) 8.242 05 
/ مهني/ إداري ***(0.0487) 0.369- 013 
متو 9 الدخل *(4.166-05) 7.346-05- 010027 
معدل الهدر المدرسى (0.0337) 0.0173 0125 
5 ***(7.903) 130.0 
ترصدات 32,14 
5 0556 


158 1: الأخطاء المعيارية في القوسين. 
5. > م* ,01. > م** ,001 > معع» 


وهذا يشغل النموذج. ويحدد خيار «لامدا» 1» الجزاء المرتبط بمجموع القيم 
المطلقة للمعاملات. وستنتج قيم أكبر انكماشاً أكثر نحو صفر معاملات الانحدار. 
ومن الممكن أيضا استعمال خيار منفصل يدعى «لامدا» 22 المرتبط بجذر المربع 
لمجموع مربعات معاملات الانحدار (مسافتها الإقليدية أو معيار ,بآ). وسيؤدي 
إدراج لامدا 2 عوض لامدا 1» «بينلايزد» إلى إنجاز انحدار الحيد 1081086) 
(1687655100. ومن الممكن في «بينلايزدا تحديد كْ من لامدا 1 ولامدا 2 لجزاء 
النموذج على نحو أكثر تعقيداً. وقد يقصي المرء أيضاً بعض المتغيرات المشاركة من 
الجزاءء وقد يجزي المعاملات المتنوعة بشكل مختلف. ولكن سنركز هنا على حالة 
مباشرة من اللاسو. وقد قعّدنا أيضاً متغيراتنا باعتبارها فرقاً معياري عن متوسط 
قيم-2) مقذما (بحيث يكون 5[آ1121 - ع2نل02صهاة) . 


ولرؤية معاملات الانحدار: ندخل 


(«للة» ,1 12550) كأمعاء ]ع0 
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يظهر جدول رقم 3.6 نتائجنا. ونحدد ابتداء مَعلم جزاء منخفض هنا (قيمة 2 
بالسية إل 'لامذ1:1): انظر العموه الميطمى :2 وفالعال قن لدى كر التعقيرانك 
معاملات لا صفرية/ عدمية» وهي متطابقة تقريباً مع تقديرات المربعات الصغرى 
العادية. وفي الحقيقة» علينا جعل الجزاء أكبر للغاية لرؤية تغيير نموذج قوي. ولا 
شيء يُسقط بتاتاً إلى أن يبلغ الجزاء 500. وفي العمود الذي يضم 500. تنخفض 
بعض المعاملات بالنسبة إلى المتنبئات إلى الصفر. حتى بعد مضاعفة الجزاء مجددا 
( إلى 1,000)» نحتفظ ب 15 متغير مشارك. ويحدث هذا من دون شكٌ. لأن العديد 
من متغيراتنا المشاركة» تساهم - في الحقيقة - في تفسير التباين في النتيجة» وبسبب 
حجم عينتنا الكبيرة (3,114 - 71) نسبياً. 


وبمجرد أن تبدأ المتغيرات في الانكماش إلى الصفرء تحدث بعض الأشياء 
المهمة؛ فبينما معظم المعاملات تنكمش بشكل مفردة النغمة بارتفاع الجزاء. يرتفع 
المعامل فى نسبة السود إلى أن يساوي لامدا 1 - 1,000» وبعدها تنخفض قليلاً. وأما 
المُعامل الصغير في حصة السكان السود في النموذج الأولء فقد كان مفاجئا. وهذا 
يقترح أن في نموذج متعدد التغيرات» تكون تأثيرات هذا المتغير مقئعة بالمتغيرات 
المشاركة المتصلة» ولكن يمثل هذا متنبئاً مهماً فى حدّ ذاته ولذاته. وأما المتغير 
المتعلق بالناس المطلقين باعتبارهم نسبة تمثل بالغين لم يتزوجوا قط. فينخفض إلى 
الصفر في لامدا 1- 500. ويعاود الظهور في 1000. ثم يتكمش إلى الصفر. وفي 
العمود الأخير من الطباعة» ذي جزاء يبلغ 5,000» لدينا مجموعة أصغر جداً من 
متغيرات مشاركة للفحص» بحيث يفسر كَل واحد منها قدراً متواضعاً من التباين فى 
البيانات. 


يستطيع (بينلايزد» إنتاج رسم بياني» مبينا كيفية انكماش معاملات الانحدار 
بالتزامن مع ارتفاع الجزاء. ولرؤية هذا الرسم البياني» نخبر أولاً البرنامج بغرض 
حساب المعاملات في الوقت الذي ترفع فيه العقاب على فترات منتظمة (الخطوات 
- 100). وبينما يكون بالإمكان جداً رسم بيان» باستخدام عدد أكبر من المتغيرات 
كما في النموذج أعلاه» فإن الرسم البياني المحصل عليه» سيكون لمسة مكتظة. 
ولأجل عرض واضح. نقدر نموذجاً أكثر بساطة: 
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+ع]1 طانتكاعم +عاء12ماعم+25ع0615+1120م 0م10 - , مط )) 0ع2112معم-> 1 13550 
ولأكلفط - معدن ,100 - ومعزة ,2 - 21لطصتها ,10غمعميء +جمعطوتطلء 
(11101 د ءجنلدلصماه 
الجدول رقم 3.6: معاملات الانحدار من «اللاسو» التي تتنبأ ب حصة أوباما 


من الأصوات بعقوبات متفاوتة. 


قيمة جزاء لامدا 1 

2 100 500 1000 52000 
السكان/ 50.1116 2.6 233 2139 2063 1.21 
(ع10) 
/ العمر8 1< 2-60 0689- 0.474- 0.3753- 0.131 
/ البيض غير الإسبان 0-06 0452- 0372- 0300 0172- 
/ السود 29) 0027 0079 0125 016 
/ الباكالوريوس أو 0519 057 002 026 0166 
درجة أعلى 
/ نسبة البطالة بين 0285 0206 053 1025 009 
الرجال 
/ بروتستانتي 0-7 0274- 0263- 0249- 0.167 
أنجليكاني 
/ أسيوي 006 1) 20 0103 01 0.0301 0.000 
/ دبلوم المدرسة 0339 0301 0233 0126 0000 
الثانوية 
/ أقل من دبلوم 0-0 0200- 0.171- 0158- 0.000 
المدرسة الثانوية 
/ معدل الفقر 0269 0238 0103 000 000 
/ أسرة مكونة من نفس 1,16 1.4 1-4 1.5 000 
الجنس 
معدل حجم الأسرة 2--- 53- 7425- 5926- 0.000 
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/ المهني/ الإداري 0-2 0.333- 0201- 0.053- 0.000 


معدل الطلاق 0-6 0.062 0.000 02 0.000 
/ العمر 34-18 89-ل- 0439- 0161- 0.000 0.000 
# العمر 65+ 3331 0509- 0.177- 0.000 0.000 
/ مولود بالخارج 5-- + 0159- 0.087- 0.000 0.000 
/ لاتيني 0- 0.063 0.026 0.000 0.000 
معدل البطالة بين النساء   -0.07988‏ 0.036 0.000 00.000 0.000 
معدل الدخل 0-03 0-- 0.000 0.000 0.000 
(5100095) 


معدل عدم إتمام التعليم   --0.010  -0.01715‏ 0.000 0000 0000 


الثانئوي 


- ونقول له أن يقوم بإنتاج رسم بياني من هذه العلاقة. إنه يساعد على تقعيد 
المعاملات هنا لكي لا تؤدي القياسات المختلفة إلى أن يطغى بعضها على الآخر. 


(11101 > ع2092101ها5 ,«» ع1 ,1235501) طندمهم1اط 


إن الرسم البياني المحصل عليه (الشكل رقم 4.6)» إضافة إلى التقعيد» تسمح لنا 
بتصور المتغيرات التي تبقى مهمة بالنسبة إلى النموذج. ونستطيع رؤية أن المتغيرات 
التي تبقى في النموذج مدة طويلة» هي تلك التي كانت - البداية - مترابطة بشكل كبير 
للغاية (إيجابياً أو سلبياً)» مع حصة أوباما من الأصوات: نسبة سكان المحافظة التي 
تمثل البيض غير الإسبان» والكثافة السكانية» ومعدل البطالة بين الرجال» ونسبة 
السكان الذين يمثلون البروتستانتيين الأنجلكان. ونسبة السكان البالغين الحاصلين 
على درجة الباكالوريوس.ء أو درجة أعلى. وإن لدى نموذج انحدار» يحتوي فقط على 
هذه المتغيرات الخمسة. 12 معدلة من 0.49) مقارنة ب .0.58 في النموذج بأكمله. 
كما يمكن أن تخبرنا هذه المتغيرات الخمسة» بعض الشيء. عن أنماط انتخابية كلية. 
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الشكل رقم 6 انكماش المعاملات 
في إعدادات مختلفة من معلم الجزاء في «اللاسوا (من 11). 
أكثر قابلية للتأويل بشكل كبير - يقلص لا محالة من القيمة التنبؤية الإجمالية. 
وعموماًء نريد موازنة التقتير بدقة تنبؤية. 
وتسمح لنا الحزمة المعاقبة أيضاً باستخدام الصلاحية المتبادلة لطية »!- لتحديد 
مدى تناسبية نموذج ما. ويمكننا إنجاز الصلاحية المتبادلة لنموذج ما بالشفرة التالية: 


لما نع 077 65عع834+2 [عع618+2[عع25+28ع0م0ممه1- ,رقتصوطه) ‏ [للع-كوومل 

ع+قطللء + صطلع + تعطع تطلع + مله انعم اعد اطامء ممه امومع م عالط عم عجوم 

لاع 0ت 52105 1ع م0157/0162 +0 _10077ع م + راع ] ممع صب ع 21 نام ططع صتط قط 1ل 

ب500- 021طصتةا ,1619 ممنتلعط+عص للع 0+ صمحط 1م 1معع0 2م 2 اعطط+ 1610م0 مر 
(111118 - ع203:01هأ5 ,10 - 1010 


وينتج هنا شيء يدعى كروس (05055»))» الذي نخزن فيه نتائج الصلاحية المتبادلة» 
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انطلاقاً من نموذج يتنبأ بحصة أوباما من الأصوات. مستخدمين 22 متغيراً مستقلاً. وبعد 
النموذج» علينا تحديد معلم الجزاء (لامدا 1 - 500)» وعدد الطيات المستخدمة في 
الصلاحية المتبادلة (طية - 10). وبعد تشغيل النموذج» نقوم بدعوة عناصر الشيء. أما 
العنصر الأول - 50171- فيعيد الاحتمالية الخوارزمية للنموذج في بيانات الصلاحية 
المتبادلة. وبالعنصر 518011654» يمكن دعوة التناسبية في البيانات بأكملها. 


0055/1 
15551111 
فى قيم مختلفة لمعلم جزائى فى اللاسو (550س1). 
قيمة جزاء لامدا 1 
2 100 500 1000 520600 

احتمالية صلاحية 

7- 11,496.82- 11,516.6- 11,568.63- 11,888.41- 
التبادل 


احتمالية خواريزمية 
لبيانات كام 2- 11,445.92- 11,475.19- 11,533.25- 11,827.07- 


معاملات لا صفرية 23 23 19 16 8 


ونستطيع إعادة هذاء عدة مرات في إعدادات مختلفة من اللامدا 1» وفحص 
التناسبية النسبية للنموذج ذي معلمات جزاء مختلفة. وفي جدول رقم 4.6» نبين 
احتمالات خوارزمية للصلاحية المتبادلة بالنسبة للنموذج أعلاه» مع قيم اللامدا 1 
التي استخدمناها أعلاه لبيان انكماش النموذج. ونرى أن الإحصائيات الدنيا 
للاحتمالية الخوارزمية المدرجة توجد في اللامدا 1 - 2. ويبدو أن هذا يقترح أن 
انكماشاً أقل - وليس أكثر - ينتج تناسبية أفضل في هذا النموذج. ولكن هذه النتائج 
القليلة» لا تسمح لنا باستنتاج مفاده أن 2 هو أفضل قيمة بالنسبة للامدا لتعظيم دقة 
خارجة عن العينة. وللقيام بذلك. علينا القيام بذلك كما تفعل خوارزمية ذات احتمالية 
قصوى. وذلك بتجربة قيم مختلفة» والتحرك أقرب فأقرب من الاحتمالية الخوارزمية 
الدنيا للصلاحية المتبادلة. 
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ويبدو أن هذا عملاً كثيراء يجب أتمتته؛ ومن حسن الحظء أن تم ذلك. وسيسمح 
لنا ابينلايزد» بإيجاد أفضل قيمة للامدا 1» بالدالة 1.17]م0». كما تسمح لنا هذه الدالة 
بتحديد الحدّ الأدنى والأقصى لقيم لامداء وستجد القيمة التي ستخفض الاحتمالية 
الخوارزمية للصلاحية المتبادلة إلى الحدّ الأدنى. ونحدد الحدّ الأدنى في 0» ونسمح 
للامدا 1 بأن يصل مداه إلى 1,000 : 


جع 65077ع834+38 [عع1]18+2ءع06125+28م0م12- ,03طة06) 1آأم0->ا لاوعط 
+مط للع + عطلء + تعطع تطلء + مناه اع م عاعش[ ازعم +25 1ك همع م +ع ]1ج نتحرع م+س 1110 
0101 تع -+1© 62617 611-52171365 0[ 015701:62-+017_0 مزع م + حداع 1 رطع ونا + 1221م لاع نا 
,2 - 1نلطتنتواصت ,1619م20ل0كط+ عم ن1لعممط+ صم صامنمعءع0 مج 1قطط+ 10 
(1121015 > 25016ل0صطذاه ,10 > 1010 ,1000 ع 1ملطاطملاء هدر 


000 


وهناء بعد إنجاز 21 تكراراء استقر البرنامج عند قيمة مثلى للامدا 1 هي: 
5ه( وكما تم ذكره آنفاء في هذه القيمة المنخفضة:» سيؤثر معلم الجزاء في 
معاملات انحدارنا تأثيراً انوي على الرغم من رفعها من الدقة التنبؤية قليلاً. 

خلاصة 

يعد «اللاسو) أداة انتقاء متغير قوي» يستخدم في إيجاد مجموعة فرعية لمتنبئات 
متاحة» لديها - مجتمعة - قوة تنبؤية. وإن المتخصصين في التنقيب في البيانات 
يستخدمونها لتحسين كَل من بساطة (تقتير) النموذجء والقوة التنبؤية. ولسوء الحظء 
إن «اللاسو» ليس متاحا بعد في بعض حزمات التنقيب في البيانات السهلة الاستخدام. 
ونتيجة لذلك. بينا التقنية باستخدام لغة خ1 الحرة. 

وفى المثال» استخدمنا «اللاسو» للتنبؤ بنسبة التصويت فى محافظات الولايات 
المتحدة التي آلت إلى الرئيس أوباما في انتخابات 2012. ود حدد البرنامج كثافة 
سكانية أعلى» ونسبة أقل من السكان دون السنّ 18» ونسبة أقل من البيضء ونسبة 
أعلى من السود. ونسبة تمثل درجات الكلية» ومعدل بطالة أعلى بين الرجال باعتبارها 
متنبئات جوهرية لحصة أوباما من الأصوات على مستوى المحافظة. 
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انحدار معامل تضخم التباين 

يعد انحدار معامل تضخم التباين أداة أخرى من أدوات التنقيب في البيانات التي 
تم تطويرها حديثاًء من أجل تبسيط نموذج ماء من خلال انتقاء متغيرات (انتقاء سمة). 
وطور انحدار معامل تضخم التباين عام 2011 من قبل لين (ضذآ) وفوستر (105165)) 
وأنغر (1[2837]). لاستخدامه تحديدا فى مجموعات بيانات ضخمة جداء خاصة تلك 
الكبيرة جداً (أعداداً كبيرة من المتعر اش وقد تم تطويرها باعتبارها بديلاً عن 
الانحدار التدريجي وانحدار المجموعة الفرعية الأفضلء اللذين يعتبران مكثفين 
حاسوبياء ومن ثم. يميلان إلى الاشتغال بشكل بطيء جداً. وأما طرق أخرى من طرق 
انتقاء السمة» مثل طالب الطريق المعمم (685)» فيشتغل على نحو أسرع بكثير» 
ولكنه يؤدي ثمناً في دقة تنبؤية متقلصة (1[28812011 320 جاع)5ه”1 ,للأآ). لقد صمم 
انحدار معامل تضخم التباين» بغية تسريع الانحدار التدريجي دون مقايضة كبيرة على 
مستوى الدقة. 

ويعد انحدار معامل تضخم التباين» خوارزمية متعددة المراحلء تمزج معاء 
تقنيات كانت موجودة (مثل انحدار تدريجي أماميء وقواعد استثمار ألفا)ء وتضيف 
عنصرها الفريد. إنه اختلاف حول انحدار تدريجي أمامي (لأنه مع عدد كبير من 
سمات المرشح. تصبح الإزالة الراجعة غير كافية للغاية). وسنمر سريعا على ما تقوم 
به الخوارزمية بالضبطء ونبين ما تستطيع تنفيذه باستخدام 1. 

إن الفائدة الرئيسة لانحدار معامل تضخم التباين» يتمثل في تقليص مقدار 
الحوسبة التي تحدث عند تشغيل انحدار تدريجي. ولكن. لماذا يتطلب الانحدار 
التدريجي حساباً رياضيا كثيرا؟ ثمة سببان اثنان وراء ذلك: 

أولاً: لأن في كُل تكرار أو خطوة في بناء النموذجء تأخذ بعين الاعتبار كُلَ متغير 
مرشح من أجل إدراجه. وهذا يعني أن في كُل خطوة. يأخذ التدريج بعين الاعتبار 
عدة متغيرات» وبما أنها تنجز عددا كبيرا من الخطوات» فهي تقوم بهذا عدة مرات. 
وفي المقابل» يدير انحدار معامل تضخم التباين متغيرات المرشح مرة واحدة فقط. 

ثانياً: في كُل خطوة: يولّد التدريج تقديرات بالنسبة إلى كُلَ معلم. وهي لا تشغل 
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الخدارا والحدا وقفل: وإنما العديد من الانحدارات بقدر وجود متغيرات المرشح في 
كُلّ مرحلة. ويلتف انحدار معامل تضخم التباين على هذا المشكل الثاني من خلال 
استعمال ما يسمى بالانحدار الأمامى على مراحل (518861/156). 


ويبدأ انحدار معامل تضخم التباين بنموذج صفري - أي بنموذج يضم فقط 
اعتراض (]12]65060) واحد - ويحسب بقايا من هذا النموذج. ثم ينتقي المتغير 
الأول في قائمة المتنبئات المحددة سلفاً (التي يعد ترتيبها - إلى حدّ ما - أمراً مهما 
هنا»ء وتعمل على تراجع هذه البقايا في هذا المتغير. وإذا ما استجاب المكغين إلى 
بعض المعايير التي تسمح بإدراجه. فسيدخل في النموذجء وتُحسب بقايا جديدة؛ 
وإلاء فإن الخوارزمية تنتقل إلى المتغير الموالي. 


ا 0 لي السابقة» 
در وعوض تشغيل انحدار كامل» وحساب كل التقديرات المعلمية: 
يقوم انحدار معامل تضخم التباين - في فى الجوهر - بحساب فقط سلسلة من 
الارتباطات ذات المتغيرين (81579118]6). 


ومع ذلك» هناك صعوبة بخصوص هذا الإجراء؛ ذلك بأن نسب-] (281105-]) 
المقيّمة لهذه الارتباطات ذات المتغيرين» قد تتحيز ضد المتغيرات التي لها خطية 
متعددة (/2111ع01112ع13/11111) كبيرة مع المتغيرات التي سبق انتقاؤها للنموذج. 
ونتيجة لذلك» تتحيز خوارزمية انحدار تدريجي أمامي «ساذج» في انّجاه متغيرات 
منتقاة غير مترابطة مع المتغيرات الموجودة سلفاً في النموذج عوض انتقاء ما قد 
يكواق مغغيرا تنيؤياً من أجل هذاء لابُدَ من إحداث تصحيح ماء لإزالة هذا التحيز. 

إن التصحيح هو ما يمنح انحدار معامل تضخم التباين اسمه؛ فانحدار معامل 
تضخم التباين» يعدل نسب-] لتفسير الخطية المتعددة من خلال استعمال «معامل 
تضخم التباين» لكل متغير بما أنه يؤخذ بعين الاعتبار في هذا الإطار. ولكن بما أن 
الخدار يغام يضح العارة حم حشار» بواسطة العجل صاتى ترجاجة اكير تددر في 
كل المتغيرات الموجودة سلفا في النموذج» فإن ذلك يمثل لغزاً. وإن إنجاز هذه 
الانحدارات؛ سيزيل المدخرات في الحاسوب التي كانت الغاية وراء استعمال 
انحدار أمامي على مراحل في المقام الأول. ويتجلى الحل في تجنب حساب 
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معاملات تضخم التباين باستعمال مجموعة البيانات كاملة. وفي المقابل» تتم معاينة 
مجموعة فرعية صغيرة من الحالات بشكل عشوائي» وتقدر معاملات تضخم التباين 
من خلال هذا القدر الأصغر من البيانات. 

وأخيراً يسمح بتضخم احتمال خطأ النوع 1 بخصوص اختبارات فرضية 
متعددة. وبتعبير بسيط» عند إجراء اختبار لدلالة إحصائية» نسمح بإمكانية رفض 
خطأء فرضية صفرية (العدم) حقيقية (خطأ النوع 1)» ثم نختار احتمال وقوع ذلك 
بتحديد ألفا. ولكن. كلما أجرينا اعجا زات فرشي معدقة: تزداد احتمالية حدث نادر» 
أو ببساطة يعد تطبيق مستوى ألفا نفسها على كل اختبار» غير مناسب. 

وتقسم تصحيحات بونفيروني لاختبارات الفرضية المتعددة ببساطة» ألفا (عادة 
5 )2 على 1 - عدد الاختبارات التي يجب إنجازها (أي عدد متغيرات المرشح). 
ولكن بطر هذا التصحيح إشكالاً إذا كان عدد الاختبارات ضخمة. وترفع من 
احتمال خطأ من النوع 2 من خلال تحديد ألفا الفعالة من أجل الدخول؛ في مستوى 
منخفض جداً للغاية. 

وفي واقع الأمرء إن انحدار معامل تضخم التباين» متخدم إجراء؛ يدعى قاعدة 
استثمار ألفا (علس ومتادء كه[ -مطماة) الذي يقيم حلا 10 بين اختبار فرضية 
متعددة غير مفيدة (الذي ينتج العديد من الأخطاء من النوع 1)» وتطبيق قاعدة 
بونفيروني (التي تميل إلى إزالة متنبئات محتملة مهمة؛ انظر 5126 20ة 105167 
9838 وتتلخص الفكرة في كون أننا نبدأ «بثروة» معينة» أو بترخيص لخطأ النوع 1 
(لنقل 0.05 أو 0.10). ثم نقوم بعد ذلك بإنجاز اختبار فرضية ما. وإذا ما تم رفض 
الفرضية الصفرية أو العدمية» فسنقوم بالزيادة في ثروتناء وإذا أخفقنا في رفضهاء 
فسننقص منها. وبالنتيجة» يُستنزف الثروة» ولا يسمح من ثمء بمزيد من اختبارات 
الفرضية. إن المستوى المهم للإدراج - في الوقت نفسه - يتغير باعتباره دلالة ثروة 
حالية» وعدداً للتكرارات منذ الرفض الأخير للفرضية الصفرية. وقد تم عرض هذا 
الإجراء لمراقبة احتمالية حالات الرفض الكاذبة للفرضية الصفرية بشكل فعال 
(2008 عصتاك له رعاوه) . 


إذن» إن انحدار معامل تضخم التباين» يشغل كُلَ متنبئ مرشح مرة واحدة فقطء 
وتعترف به إلا في حالة تجاوزه - إلى حدٌ ما - شريط عالٍ للإدراج. ولكنء ألا يعني 
هذا أن الخوارزمية يمكن أن «تفقد» متنبئات مهمة؟ يؤكد لنا منتجو الخوارزمية» 


]]0 


عكس ذلك. إذ في حالة ما إذا كانت المتغيرات التنبؤية العالية غير مترابطة مع البقايا 
(18651011215). فإن قاعدة استثمار ألفا ستضمن لنا أن النموذج برمته سيكون تنبؤياء 
على الرغم من أنها لا تضمن دخول أي من المتغيرات»؛ النموذج في حدٌ ذاته. ويُنصح 
مستخدمو هذه التقنية بإيلاء الأولوية للمتغيرات الأكثر أهمية بعدهم أولاً. ويزعم 
مؤلفو البرنامج - ولغايات تنبؤية - عدم أهمية دخول متغير مترابط أو متغير آخر 
بشكل عالي, النموذج. وورد في كتاباتهم أنه «إذا كان بالإمكان تنظيف هذه الأهمية 
أو حجبها من لدن متغيرات أخرىء فسينعدم - ولغايات تنبؤية - أي فرق بين المتغير 
وبدائله» ومن ثم» عدم إمكانية اعتبار أي منها حالة «صادقة» 2020 راء)105 ,ضانآ) 
(239 ,2011 1[28815. ولن يتم فقدان «متغيرات مهمة بشكل عام». ولن يتم فقدان 
متنبئات إشارة عالية» في ظل انعدام متغيرات أخرى مترابطة بها ارتباطاً جوهريا. 


لقد تم إظهار خوارزمية انحدار معامل تضخم التباين» أسرع جوهرياً من 
الخوارزميات المنافسة (ويقترب طالب الطريق المُعَمم أكثر)» وأفضل في مراقبة 
معدل الاستكشاف الكاذب الهامشي (ولو أنها ليست جيدة مثل الانحدار التدريجي» 
أو الخوارزمية الأمامية - الراجعة [7088]» أو طالب الطريق المعمم)؛ فلديه أداء 
أفضل خارج العينة (دقة تنبؤية أكثر) من طالب الطريق المعمم واللاسوء وهو جيد 
مثل «الفوبا» والانحدار التدريجي. 


تشغيل انحدار معامل تضخم التباين: مثال باستخدام +1 


في حدود علمناء إن الطريق الوحيد الذي يتم به تنفيذ انحدار معامل تضخم 
التباين» هو عبر حزمة 1 لمعامل تضخم التباين» الذي كتبه دونغيو لين تالا1008) 
(اآ (2011) ورسخه. أحد مطوري الطريقة. وننجز مثلًا من أمثلة انحدار معامل 
تضخم التباين مستخدمين مجموعة بياناتنا الخاصة بانتخابات 2012 على مستوى 
المحافظة. أما بخصوص مثالنا الذي يعرض «اللاسوا» فسننمذج حصة أوباما من 


الأصوات على مستوى المحافظة. 
وسنقوم أولاً بتحميل الحزمة من الرابط: 0812.1-010[6©1.018//:م111. وتثبيته 
فى ذاكرة شغالة: 
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(*711ا'') وعع ماعدم .11ةأ5ه[1 
(1715) تحنوخط رآ 
وبعد ذلك» نحوّل مجموعة من المتنبئات إلى مصفوفة» لأن معامل تضخم 
التباين يشتغل أفضل إذا ما تناولت 7*5 باعتبارها شيئاً مستقلاً. وستكون إدارة 109) 
(150ه كافية لهذا الغرض. ولاحظ هنا أن لدى كَل المتغيرات حرف 2 باعتبارها 
سابقة (*8765). ونقوم بذلك للدلالة على أن لدينا فارقاً معيارياً عن متوسط القيمة 
(ع:2-501) لكل المتنبئتات التي نحن بصدد استعمالها. 7ه من القيام بهذا لوضع 
وم 
كل المتغيرات على مستوى واحد لكي يكون بالإمكان تقييم مساهمتها النسبية في 
تفسير التباين بشكل مناسب. وهذا ضروري بشكل عام في أي محدد سمة 56لاأة156) 
(561601100 كى لا يكون هناك تحيز فى اختيار الخوارزمية. ومع ذلك. بينما تقعّدُ لك 
حزمة من قبيل بينلايزد المتغيرات بمثابة خيار» يكون لزاماً عليك القيام به سلفاً - 
وعلى نحو سابق لأوانه - في ظل معامل تضخم التباين. 
,66564 ,1158341ء2238 ,18][عع22 ردمعلمممماجد ,مممصاج)لصاطاعكعم 
رآ15[ع6123م2 ,6205182م2 ,0متصمئعم7 ,كاعد اطانزءم72 ,عالط للكاعم2 ,2286865 
بأمععطاه25 ,لعقطج ,لعقطااج ,ع2اقططع ,متخملمعم2 ,ععة1)[ لسعم متعطاممعمج 
,26120177 ,2206012 ,لاع طن لأقصج برلعء200 ,1010م ,لعذ5لع )2235 ,لعطعو2 


(م 718115020 ,غ(ع2531265 ,7011701662 ,2210111212066 رقطع21110 

الآن وقد جمعنا كَ متنبئات مرشحنا ضمن مصفوفة» نحن مستعدين لآداء 
معامل تضخم التباين على النحو الاتي: 

(150' > ع3 ,200 > 5115512 ,0.05 > تتكل ,0.05 > 718/0 رارق لطة20) 111->11001 


ويولّد هذا شيئاً يدعى مود 41 (1 1200): سيتم داخله تخزين نتائج عملية انتقاء 
المتغير لمعامل تضخم التباين. وإن خيار 077 تخبر البرنامج بالثروة الأولى التي نريد 
أن ينفقها النموذج. ومن أجل نموذج أكثر محافظة التي تنتقي متغيرات أقل» سنحدد 
هذه القيم في مستوى منخفض. وفي المقابل» إن تحديد الثروة الأولى أو تغيير في 
الثروة» في مستوى أعلى؛ سيسفر عن إدراج مزيد من المتغيرات. كما يخبر الحجم 
الفرعي (51065126)» البرنامج بحجم العينة الفرعية العشوائية التي نحسب فيها معامل 
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تضخم التباين لكل متغير على ساط البحث. وأخيراء إن «11101 -ءع20)» » يمكننا 
بالاطّلاع على ما يقع عندما يدير معامل تضخم التباين مجموعة المتغيرات البالغ 
عددها الثلاثين» التي قدمناها من أجل التقييم. وإن القيام بذلكء يولّد المُخْرجٍ المبين 
في الشكل رقم 5.6. 
ويمكن رؤية وجود 30 سطراًء واحد لكل متغير من متغيرات المتنبئ 30 وخمسة 
أعمدة. وإن العدد الأول في العمود (بعد الرمز (11) يخبرنا - ببساطة - عن المتغير 
الذي سيقيمه البرنامج. أما الأعمدة الأخرى فتخبرنا بما يلي: 
1. الثروة الحالية (قبل تقييم المتغير الحالي) 
2. مستوى الاختبار الحالي (الذي - تذكّر - يتغير مع كُلّ متغير جديد, استناداً إلى 
ما إن كانت المتغيرات القبلية قد وضعته ضمن النموذج أم لا). 
3. إحصائية-] بالنسبة إلى المتغير قيد التقييم 
4 قيمة-( بالنسبة إلى اختبار-) هذا. 


وماذا يعني هذا كله؟ طيب» تأمل» ما يحدث في السطرين الأولين؛ ففي السطر 
الأول» لدينا الثروة التي اخترناها كنقطة انطلاق: 0.05. ولكي يتم إدراج المتغير في 
النموذجء فلا بد أن يكون ذا دلالة في0.25 -» (أو الثروة الحالية مقسومة على 2). 
إننا نرى أن نتيجة اختبار-) هي 222.77 وهي نتيجة أقل بكثير من 7>0.001 (مقربة هنا 
إلى 0). وهذا يعني أن المتغير الأول الذي قدمناه لمعامل تضخم التباين» «ومها2 
(تقعيد-2» للخوارزمية الطبيعية للكثافة السكانية)» فسَرتْ تبايناً كافياً لإدراجه في 
النموذج. وفي السطر 2» نرى النتيجة: ارتفعت ثروة النموذج» في حين تم تحديد 
القيمة الحرجة 7/2106 7101681©) لإدراج المتغير الموالي في مستوى أقل انخفاضاً 
(في0.18 - ©) ومرة أخرىء إن إحصائية-] بالنسبة إلى المتغير الثاني» عالية جداً 
(6.953)» ويقبّل المتغير في النموذج. 
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(عناع7سععوع ,200سع2 [1كطنادك ,08-0.,05 ,80-0.05 ركر رقهة200) 2001-15 - 

]1[ "1 0.05 0.025 22.771554296814 0” 

]1[ ”2 0.075 0.01875 6. 95294747856659 3. 577360629947186-12" 

]1[ "3 0.10625 0.0177083333333333 5.72354728131594 1.043225172914226-08" 

]1[ "4 0.138541666666667 0. 0173177083333333 5. 59771973911076 2.171894797342596-08'” 
]1[ "5 0.171223958333333 0. 0171223958333333 4. 83686222030236 1. 319047909786876-06"' 
11[ "6 0.2041015525 0. 0170084635416667 0.82856419861013373 5510553865" 

]1[ "7 0.187093098958333 0. 0133637927827381 27. 0053667414444 0" 

]1[ "8 0. 223729306175595 0.0139830816359747 3. 80020276492099 0.000144577740259999"' 
]1[ "9 0. 25974622453962 0.0144303458077567 13. 5027750931116 0" 

]1[ "10 0. 295315878731864 0.0147657939365932 5. 57551515371425 2.467984216991686-08" 
]1[ "11 0.330550084795271 0.0150250038543305 0. 793302156109217 0.427601800931797'' 
]1[ "12 0. 31552508094094 0.0131468783725392 0.759470464593518 0.44757117560337" 

]1[ "13 0. 302378202568401 0.0116299308680154 5. 24342826272885 1. 576201085207176-07" 
)1[ "14 0. 340748271700385 0.0121695811321566 1.4465381095496 .148026331031677" 

]1( "15 0. 328578690568229 0. 010952623018941 10. 5970808072016 0" 

]1[ "16 0. 367626067549288 0.0114883146109152 11. 6686643604467 0" 

]11[ "17 0.4065137752938373 0.0119452280275992 5. 68462572632097 1. 310994468539666-08"“ 
]1[ "18 0.444192524910773 0. 0123386812475215 4.9769822834295 6.458323034141968-07" . 
]1[ "19 0.481853843663252 0.0126803643069277 6. 14694924012578 7. 898739440292966-10" 
]1[ "20 0. 519173479356324 0.0129793369839081 2.26986290639511 0.0232159023444118“ 
]1[ "21 0. 506194142372416 0.0120522414850575 0. 498836920414769 0. 617894275430784" 
]1[ "22 0.494141900887359 0.01123049774744 1.41894577497042 0.155914825535024" 

]1[ "23 0.482911403139919 0.0104980739813026 18.4175936639235 0" 

]1[ "24 0. 522413329158616 0. 0108836110241378 3.98169787457411 6. 842472222046156-05" 
]1[ "25 0: 561529718134478 0.0112305943626896 0. 531800210693972 0. 594864376832877" 
]1[ "26 0. 550299123771789 0.0105826754571498 0. 570307523144567 0.568469139224964“ 
]1[ "27 0. 539716448314639 0. 00999474904286369 6. 86589616654364 6. 607603353359086-12" 
]1[ "28 0. 579721699271776 0.0103521732012817 2.75214879766392 0. 00592056128820428" 
]1[ "29 0. 619369526070494 0.0106787849322499 2. 24618282745469 0. 0246922997211378" 
]1[ "30 0. 508690741138244 0. 0101448456856374 1.159582223814 0. 246218941876399" 


الشكل رقم 5.6: النتيجة تُظهر انتقاء متغير من انحدار معامل تض خم التباين في +1. 


وفي المقابل» نستطيع رؤية ما يقع عندما يخفق متغير ما لجعله ضمن النموذج 
من خلال النظر إلى ما يقع قبل متغير 6» وبعده. ولاحظ أن ثروة النموذج ترتفع بالنسبة 
إلى كُلَ متغير من 1 إلى 6. وتذكر أن هذه هي ثروة النموذج قبل إخضاع المتغير 
الجديد إلى التجربة. والمتغير 6» لا يضعه في النموذج (التي نستطيع الإفصاح عنه من 
خلال النظر إلى قيمة-] 0.829» وقيمة-] 0.407). ولاحظ أنه بالنسبة إلى المتغير 7 
تتراجع الثروة قليلاً (من 0.204 إلى 0.187). وبعد إدارة متغير اتناء على ماذا سنحصل 
من حيث تناسبية النموذج؟ في الحقيقة» إن «روتين» معامل تضخم التباين» لا يتناسب 
مع النموذج بالنسبة إليك؛ بل على العكس من ذلكء إنه يخبرك عن المتغيرات التي 
يجب عليك ضمهاء والمتغيرات التي يستوجب عليك رفضها. إنه - إذن - محدد 
سمة أصلي. 


14 


ولرؤية المتغيرات المختارة» نستعمل ما يلي: 
أعع 12001551 
وتعود ]1: 
(41 754321 171615131098 2724231918 28 
وهذا يخبرنا عن هوية أعداد المتغيرات - 19 في المجموع - التي اختارها 
النموذج. ونرى - من خلال فحص القائمة - أن العديد من المتغيرات مفقود: 


01 
(00 م نتة00: د ذأية1)0 


011 | ٠ 

عو 294 1و0 كولررم!| 2‏ 02210 101 
117001 1,1 اكه 1971-07 01110-01- 

:]110081 تذأكةمم: 0‏ الأسقهم: ‏ 0|101 لم0 
11710 1018-01 1171-01ء 1ك 1.1000 لال 
0 0 ا" ل :انار 
اليل 1111-01 011-01 لاك 01-/1701»- 
»ا انلك 

01م 141711 1.001 


المتغيرات» 6»: 11. 21.20.1412 22, 25: 26, 29 30. ومن المهم تذكر أن 
انتقاء متغيرات بواسطة انحدار معامل تضخم التباين يتوقف - إلى حد ما - على 
الترتيب المعتمد في إدراجها. إن معامل تضخم التباين يجرب كَل متغير مرة واحدة 
فقطء ويحاول ببساطة تعظيم القوة التفسيرية دون الإفراط في التناسب. ومن ثمء إذا 
كنا نحاول ضمان اختيار الخوارزمية للمتغيرات (الحقيقية»» فسيكون تشغيلها عدة 
مرات فكرة جيدة» من خلال تغيير ترتيب المتغيرات في كل مرة. 


وإذا ما قلصنا قيمة معلم /017» فسنقلص عدد المتغيرات المقبولة لدى النموذج» 
وذلك لأن القيمة الحرجة المدرجة في النموذج تتوقف على ثروة النموذج. وإن 
إضافة ثروة أقل إلى رفض فرضية صفرية ماء يؤدي إلى قيم حرجة من أجل إدراج أقل 
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انخفاضاًء ومن ثم» من أجل سمات منتقاة أقل. وعندما نحدد 010 في 20.05 ينتقي 
معامل تضخم التباين 19 متغيراً . ولكنء هذا المَعلم» لا يفضي سريعاً إلى نموذج أكثر 
تقتيراً. وعندما نُخفْض من 0 إلى 0.01, و0.0001. ننتقي متغيرات 18, و18 و17 
على التوالي. أما البديل الآخرء فيتمثل في تقليص الثروة الأولية للنموذج. ولكن مرة 
أخرىء على المرء - بانتقاء المتغيرات هذه - تحديد 70 على نحو منخفض جدا قبل 

وبعد تسوية المتغيرات من أجل الإدراج نشغل - ببساطة - نموذجاً خطياً 
بالاستعانة فقط بتلك المتغيرات المنتقاة. ونشكل يدويا مصفوفة» تضم فقط 
ل 
الفرعية. ويظهر مُُخرج انحدار 018 في الشكل رقم 6.6. 


,6564 ,22811534 ,18غاء238 ,25ء0م0مصاجد ,مممصاع) ل0طاتاء->2ع2 
و12قطط2 ,ع20آ11-1لاللقاعم2 ,225182ءم2 ,لتتمصومعم2 ,كاعد انعمج ,عات تعمج 
,03110 ,21260116 ,212811121228 بلعطاع263 ,1أمعع25012 بلع285 يلع قط !2 


(2ع2011016 


(23-22ةط12)20-> 24002 


قد انتفى معامل تضخم التباين» المتغيرات التي سبق لنا أن لاحظنا أهميتها في 
تنبؤ حصة أوباما من الأصوات على مستوى المحافظة: الكثافة السكانية» نسبة السكان 
غير الإسبان من البيضء ونسبة السكان السود. ونسبة البالغين الشباب في السكان» 
ومعدل البطالة بين الرجال. وهكذاء تنتج هذه الخوارزمية الناجعة للغاية نتائج» تتوافق 
بشكل كبير مع نتائج النماذج التي رأيناها من قبل. 


وكلما مضى توسع عالم التنقيب في البيانات قدماً على قدم وساق. مولّداً - إلى 
الأبد+ كرارزميات جديدة» يكون الباحثون قد طوروا - مع ذلك - تقنية أخرى» 
تحسن ظاهرياً انحدار معامل تضخم التباين. وهذه الطريقة الحدثية - انحدار معامل 
تضخم التباين قوية - تعالج ميل انحدار معامل تضخم التباين «المعياري» لأن يصير 
حساسا لحضور حالاات شاذة في البيانات (2013 تزعوع 1 -1/10101132 220 15نام101) . 
ويعد انحدار معامل تضخم التباين طريقة مهمة لانتقاء المتغيرات على نحو ناجع 


لتعظيم دقة تنبؤية. 
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النصل السابع 
إنناج متغيرات جديدة 


إن المتخصصين المتمرسين في التنقيب في البيانات» يخبرود الوافدين الجدد 
على الميدان باستمرار بأن ما يستغرق معظم الوقت عادة» ويتطلب العناية الكبرى في 
التنقيب في البيانات» ليس هو إدارة التحليل (مرحلة النمذجة)» بل هي المرحلة التي 
تسبق تحليل البيانات عندما يتتج الباحث المتغيرات أو السمات التى ستدخل ضمن 
نماذج. ويرجع سبب ذلك - جزئيا - إلى استخدام الباحثين معرفتهم بالموضوع 
لضمان عدم إهمال متغيرات هامة. كما يعمل الباحثون أيضاً على تشكيل النسب التي 
تبدو هامة من حيث التصور (التكلفة للقدم المربع الواحد. عمليات إطلاق النار 
بحسب 100,000 نسمة» وهكذا). وقد تظهر متنبئات قوية تجريبياً. وفوق هذاء مهما 
يدرك متخصصو التنقيب في البيانات إمكانية أن يكون شكل المتغيرات مهم بالنسبة 
إلى التحليلات التي تلي, فإن عليهم الأخذ بعين الاعتبار تحولات ممكنة لمتغيراتهم 

وتهم الحالة الأكثر بساطة وَشيوغ التقعيد أو المعيارية (5]852021012810). 
وفي بعض الطرق - لكن ليس كل الطرق - ستفضل الخوارزمية» المتغيرات التي 
تمتلك فئات عديدة (أو مجموعه ة كبيرة من القبع)ء كل العمر بالسنوات» أو الدخل 
بالدولارات» باعتبارها أكثر تنبؤاً أو ترابطاً حيظينا من تير ذى نات ائل» ار ذئ 
مجموعه ة أصغر من القيم» من قبيل الحالة الاجتماعية. ونقصد بكلمة «تفضل" أن 
البرنامج سيعتبر متنبئاً ماء ذا فئات عديدة» أو مجال واسع. متنبئاً أكثر قوة من متنبئ لا 
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يتوافر إلا على فئات أقل. وينبع هذا التحيز من الطريقة التي نقدم بها بياناتناء عوض 
عكين: البنة التشتيقية فى البياناته عل شيل المدال» قد كار تمثيل الدخل 
بالدولارات» أو راك مسجلة. وقد نمثل العمر بالسنوات أو نمثله ضمن 
مجموعات مكل المراهقين (العشرات) والعشرينات:والثلاثينات: وهكذا: وستغير 
علاقة المتغير بالنتيجة بحسب نوع الاختيارات التي نتخذهاء مخلفة أحياناً تأثيراً في 
الأهمية التنبؤية الظاهرية لهذا المتغير المرتبط بمتغيرات أخرى. ويكمن الحل في 
فور كل المنتعاته لد عي ون جرع اناك لتم ما يواض تمن 
مشترك» وهي عملية معروفة بالتقعيد. 


إن نوع التقعيد الأكثر شيوعاًء يحول المتغيرات المستمرة (سواء قيست باعتبارها 
متغيرات فاصل زمني/ نسبة أو متغيرات ذات مستوى عادي) إلى فوارق معيارية عن 
متوسط القيمة (2)2-500168 ولهذه الفوارق المعيارية متوسط الصفرء وانحراف 
معياري قيمته واحد. ولهذاء مهما بلغ الفرق في محتواها (العمر. والدخل. ومعدل 
الذكاءء وساعات العمل بالأسبوع)» بعدما تم تقعيد معدلاتهاء فسيكون لدى 
المتغيرات المحولة المعدل أو المتوسط نفسه. والانتشار نفسه. 


ويحدث نوع آخر من أنواع إنتاج المتغير» عندما يأخذ المرء متغيراً مستمراء مثل 
العمر بالسنوات» والدخل بالدولارات» ويحوله أو يغير تشفيره إلى مجموعة فئات 
مميزة ومنظمة» على سبيل المثال» إنتاج فئات عمرية مثل 210-0 20-11, 230-21 
وهكذاء إلى أن تصل إلى أعمار تتراواح بين 80-71. ويعرف هذا «التقطيع» للمتغيرات 
المستمرة بالتنقيب في البيانات باعتباره عملية توزيع خانات (عصتصصذ8). أو تفريداً أو 
تميزا (101501661234100) وإلى جانب إنتاجه للنسب والمتنبئات التي تم تقعيد 
معدلاتهاء فإن هذا التقطيع يعد الخطوات الأكثر انتشارا في عملية معالجة البيانات 
مسبقاً قبل تشغيل نموذج ما. 

وحسب الانطباع الأول» يبدو أن تغيير متغير مستمر ماء مثل العمر بالسنوات؛ 
إلى متغير متميز مثل فئة عمرية» يفترض ضمناً فقدان المعلومات» أي عدم وضوح 
التفاصيل الدقيقة. هذا صحيح. ولكن توزيع الخانات لها ميزة التعويض التي تجعل 
من السهل جدا تمييز العلاقات اللا خطية (ونمذجتها) بين متنبئع ومتغير النتيجة. 
لنقدم مثالا عن ذلك. 
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سنستعمل البيانات المأخوذة من مسح المجتمع الأميركي للتنبؤ فيما إذا كان 
شخص ما يمتلك تأمين صحىء مستخدمين خصائص ديموغرافية متعددة. ونشكل 
ميجيوعة زانائنا النخاصة لاتحرامعدة نمسالا فى الاك الأفراد الموشين وخير 
التوتتى و لكان الأعيهامن طن المزة قن مكلوق أفل ةفر : لمنيا مله الميكان 
(حوالي 7/14)» سنبقي على جميع الحالات غير المؤمّنة في العينة» على أن تكون 
عينة عشوائية مأخوذة من أكبر عدد من الأفراد المؤمّنين» بغية الحصول على تقسيم 
0. وإننا نقوم بذلك لأنه في حضور تصنيف نتائج غير متوازنة بشكل كبير» تعمل 
الخوارزميات - فى الغالب - على تصنيف كل الحالات باعتبارها حالاات تنتمى إلى 
فئة أغلبية لتقليص معدل الخطأ في التنبؤ. وتؤدي الموازنة في البيانات إلى نموذج 
أهمء واختبار أفضل من دقة تنبؤية. 


ندير انحداراً لوجيستياً يتنبأ بوضعية التأمين الصحيء بحيث يحمل ترميز 1 إذا ما 
كان باقر فرقم إلى تأمين صتدئ» وترميق 0 اما كان مو ناويدل ضبن المتمنات 
كلف الشغل:والعدرة والتعالة الاجتجاعية »و العر قو الحتوسة 0م62 )ملك 
المنزل» والتحصيل التربوي» ومكان الميلاد. والخدمة العسكرية» وحالة القوة 
العاملة» ومنطقة التعداد. ومن المهم هنا تأكيد دخول العمر والدخل ضمن النموذج 
باعتبارهما متغيرين مستمريين. ولدى نموذجنا شبه مربع مكفادين 3101"20062:5) 
(82561100-17 0.202 وتسجيل احتمال (000طزاءءلة.108-1) يصل إلى 
7 . ويبين الجدول رقم 1.7 مصفوفة الارتباك» (التي تجدول الفئة 
المتوقعة» مقابل الفئة الحقيقية للنتيجة)» في حين يمثل الشكل رقم 7.1 تصوراً 
للأهمية النسبية لمتغيرات مستقلة بالنسبة للتنبؤ. وكلاهما يمكن توليدهما بشكل آلي 
بواسطة الحزمة الإحصائية للعلوم الاجتماعية (5855) بعد تشغيل انحدار لوجيستي. 


الجدول رقم 1.7: مصفوفة الارتباك للانحدار اللوجيستي باستخدام بيانات 
متوازنة (الحزمة الإحصائية للعلوم الاجتماعية» 5255). 


مؤمن متنبا مؤمن غير متنبا دقة 
مؤمن حقيقى ‏ 78,9714 23,9 120100 
غير مؤمن حقيقى 31,242 2/138 2256 


159 











7 1 هه فلات اسل 
أقل أضية أكثر أضية 


الشكل رقم 1.7: أهمية المتنبأ بالنسبة إلى الانحدار اللوجيستي باستخدام بيانات 
متوازنة (الحزمة الإحصائية للعلوم الاجتماعية؛ 5755). الهدف: غير مؤمن. 


إن معدل الدقة بشكل عام هو 71.4/: إذ يعمل بحقء وعلى نحو مماثل» على 
تصنيف إيجابيات صادقة» وسلبيات صبادقة غبلى:مستوئ النتيجة. وبحسب نتائجناء 
يمثل دخل الأسرة, المتغير الأكثر تنبؤاً في نموذجناء متبوعاً بمكان الولادة (متغير 
وهمي (ءاطقتةلا 113127 2]) بالنسبة إلى الأفراد المولودين قن ,التخارج)؛ وحالة 
القوى العاملة» والتحصيل التربوي. ولاييدو العمر مهما يا - في تنبؤ و تغطية 
التأمين الصحي؛ بل هو معارض للحدسء بما أننا ندرك بأن الحقّ في بعض برامج 
التأمين الصحي (أبرزها الرعاية الصحية) يقوم أساساً على العمر. كما أن المساعدة 
الطبية للفقراء وبرنامج الدولة للتأمين الصحي للأطفال (50111)» متاحة أيضاً 
للأفراد - جزئياً - على أساس العمر (وجزئياً على أساس الدخل). وحسب مخرج 
انحدارنا (غير مبين)» يملك العمر علاقة سلبية معتدلة مع حالة التأمين الصحي. 
وربماء يتجلى المشكل في عدم خطية العلاقة بين العمر وحالة التأمين الصحي. 
وربما ثمة احتمالات مختلفة بشكل مميز للتأمين لفائدة أشخاص في مجموعات 
عمرية مختلفة. 
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تفريد متنبئ مستمر 

إن أشجار التقسيم - المعروفة أيضاً بأشجار القرار أو أشجار التصنيف - تعد 
خوارزميات تنبؤية» تستكشف الطريقة الأكثر نجاعة التي من خلالها يتم فصل 
الحالات بالنسبة إلى فئات نتيجة ما. وسيتم وصفها بتفصيل في الفصل العاشرء غير 
أننا سئركز حالياً على كيفية إمكانية استخدامها لوضع متغيرات مستمرة في خانة أو 
تمير اهن الخل عسي دو كيده ب 

ولتصنيف الحالاتء تقسّم أشجار التقسيم حالات حسب كل قيمة لكُلٌ متغيرات 
التنبؤ المرشحة» والمحددة من قبل الباحث؛؟ فتجد ذلك التقسيم الذي يفصل - بشكل 
أفضل - الحالات إلى فئات النتيجة قيد البحث. وبإيجادها هذا التقسيم المثالي؛ 
تواصل إعادة هذا الإجراء إلى أن تتتج مجموعات متجانسة من حيث النتيجة» أو إلى 
أن يصدر الباحث تعليماته بإيقاف البرنامج. 


عموماً تأخذ أشجار التقسيم عدداً كبيراً من متغيرات مترشحة لدى اختيارها 
مكان التقسيم. ولكن يبقى عدد المتغيرات المستقلة التي تستخدمها الخوارزمية من 
صلاحية البياحث. وبعد ذلك» سيقسّم البرنامج فقط على هذا المتغير. وسيجد هذا 
- في الواقع - النقاط الفاصلة (87631001215) في المتغير على مستوى علاقته 
بالنتيجة. ومن ثم, إذا وجدت لا خطيات (710111062311165) معقدة بين متنبئ مستمر» 
ومتغير نتيجة ثنائي» فستكون أشجار التقسيم طرقاً ممتازة لإيجادها. وتعد «الأشجارا 
التي تنتج عن تطبيق شجر التقسيم على هذا النحوء خانات لقيم المتنبى. 

في مثالناء نحاول تنبؤ عدم وجود تغطية التأمين الصحيء ونشك في إمكانية أن 
يكون نسبة العمر تنبؤية بشكل كبير» بل نرى أن العلاقة بين العمر والحالة الصحية غير 
خطية. ومن ثم» نستعمل شكلًا خاصاً من أشكال شجرة التصنيف المعروفة مربع 
كاي للكشف عن التفاعل التلقائىي (11417©): المشغل في إحصائية الحزمة 
الإحصائية للعلوم الاجتماعية (5858): لفحص هذه العلاقة. وتوجد النتائج ملخصة 
في الجدول رقم 2.7. 


وتقترح الشجرة طريقة لخلق مجموعات عمرية مثالية بالنسبة إلى تنبؤ حالة 
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التأمين الصحيء بحيث يضم الصنف العمري الأول الذي تم إنتاجه» أشخاصاً تتراوح 
أعمارهم بين 8-0 في حين تضم الخانة الثانية أشخاصاً تتراوح أعمارهم بين 17-9 
وأما الخانة الثالثة فتضم أشخاصاً تتراوح أعمارهم بين 24-18» وهكذا. وإن فحص 
مدى تغيير احتمال عدم كون الشخص مومَّنا صحيا عبر هذه الفئات العمرية» يخبرنا 
بمدى لا خطية العلاقة بين العمر وحالة التأمين. وفي هذه البيانات (التي - تذكر - 
تمت موازنتها من حيث النتيجة)؛ يكون الاحتمال النسبي لكون الشخص غير مؤمن» 
منخفضة لدى الأطفال!١)؛‏ بينما يرتفع بشكل كبير بين الشباب الذين تتراوح أعمارهم 
بين 30-18. إننا نشهد - إذن - انحداراً بطيئاً فى هذا الاحتمال» يشمل باقى مرحلة 
البلوغ. وفي المجموعة العمرية الكبرى (الذي حددته الحزمة الإحصائية للعلوم 
الاجتماعية في 63 عاماً) يتراجع احتمال نسبة الأشخاص ء غين المؤغية: 


وباختصارء إن العلاقة الحقيقية بين العمر واحتمال عدم كون الشخص مؤمناً 
علاقة لا خطية» أي ترتفع وتنخفض عبر الطيف العمري. وفي السابقء لما أدخلنا 
احبر اعبار ا مور بي لجار لمر لتر لمعل وتييع الج على 
علاقة متوسط هامشي بين العمر وحالة التأمين الصحيء الذي كان عاجزاً بشكل 
مطلق عن رسم خريطة هذا التعقيد. ونتيجة لذلكء كان يبدو العمر غير مهم نسبياً في 
تنبؤ حالة التأمين. وكان ذلك - باختصار - نتيجة خطأ مواصفة «601108260م5) 
(:810. علاوة على ذلكء بما أن العلاقة بين العمر وحالة التأمين تحركها اقتطاعات 
قانونية عشوائية من أجل أهلية البرنامج» فإن نمذجة هذه العلاقة - ببساطة - بشروط 
تربيعية (©0112018]1).: أو تكعيبية (011510) بالنسبة إلى العمر» لا تبدو أنها مرضية 
تماماً (ولو أنها ستشكل - بكل تأكيد - تطوراً مقارنة بالمواصفة الخطية). وسنبين 
أدناه» كيف أن عملية توزيع العمر في خانة بشكل مثالي ضمن فئات» وضم هذه 
الفئات باعتبارها متغيرات وهمية» يمكن أن يحسن القدرة التنبؤية للنموذج. 
(1) وبما أننا وازنًا هذه البيانات في النتيجة» فإن الاحتمال الشرطي للحصول على التأمين - مع الأخذ بعين 
الاعتبار العمر الملخص في الجدول رقم 2.7 لا يتوافق مع الكميات الحقيقية للساكنة. ولكن بما أن 


المجموعات المؤمّنة» وغير المؤمنة. تمت معاينتها عشوائياً (بمعدلات مختلفة).» فإن الفوارق النسبية في 
الاحتمال بين المجموعات العمرية» تعد مفيدة .(المترجم) 
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عقدة مجموعة عمرية ١‏ / بدون تأمين صحى2 عددالحالات 
1 0-8 2013 5 )40 
2 9-7 10013 52,5 
3 18-3 آ1ى ]7 52,77 
4 24-9 7011 52,35 
5 30-5 )6 24,7 
6 36-2 23 52/9 
7 43-8 268 52,66 
8 49-5 5,251 2/0 
9 56-2 1413 05 )246 
10 +63 77 52,8 


الحدول رقم 2 استخدام شحرة مريع كاي للكشف عن التفاعل التلقائي 
(1141)) لوضع متغير مستمر (عمر) فى الحزمة الإحصائية للعلوم الاجتماعية. 


ولكن أولآًء نعود - في الجدول 3.7 إلى تحليل شجرة لعلاقة أخرى بين متغير 
مستمر - العائد الأسري - والتأمين الصحي. ومرة أخرىء تمكن البرنامج من تحديد 
النقاط الفاصلة فى المتغير المستمر من حيث علاقته بالنتيجة؛ وتبدو هذه النقاط 
الفاصلة في 6 و523,000. و540,000. 531,200.» وهكذا. ولكن يشير 
التفتيش حول كيفية تغير حالة التأمين عبر هذه المجموعات ذات الدخلء إلى علاقة 
خطية (أو على الأقل علاقة رتيبة) بين العاتد الأسري والتأمين. وفى المجموعتين 
ذات الدخل المتدني» تفتقر نسبة كبيرة - نسبياً - من الأفراد إلى تأمين صحي. 
وتنخفض هذه النسبة كلما انّجهنا تصاعدياً على مستوى الدخل إلى أن نحصل على 
الفئة ذات الدخل العالي جداً. وإن احتمال عدم توافر التأمين لفائدة هذه المجموعة؛ 
يمثل ثلث تلك المجموعة التي يعيش أفرادها على الدخل المتدني. ومؤدى ذلك أننا 
من غير المرجح الحصول - بشكل كبير - على نتيجة» على مستوى القوة التنبؤية من 
خلال استبدال مواصفة مستمرة للدخل بفئات ذات مجموعة الدخل (وإن كان علينا 
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البحث في هذا على كُلُ حال»» وفي الواقع» من المرجح فقدان القوة التنبؤية. وتتجلى 
المسألة هناء في عدم استخدام الخانة دون تمييز. وفي حالات تكون فيها اللا خطية 
المعقدة ميزة من ميزات العلاقة «الحقيقية» الكامنة بين متنبع مستمر ونتيجة ماء 
ستساعد على التنبؤ. ولكن إذا كانت العلاقة الكامنة خطية بكل تأكيد. لن تكون 
مساعدة» وستكون - في واقع الأمر - غير مناسبة. 

مثال خلال استخدام إحصائية الحزمة الإحصائية للعلوم الاجتماعية 


لقد بينا فقط كيف يمكن استخدام الأشجار لعملية توزيع المتغيرات المستمرة 
في خانة» ولكن على القراء أن يكونوا على علم بأن رزم متعددة من رزم برمجيات 
التنقيب في البيانات» تقدم تطبيقات تستطيع توزيع متغيرات مستمرة في خانة بشكل 
مباشر أكثرء دون أن يكون المستخدم مرغما على فحص برنامج شجرة ما وتفسيره 
(ولو أن الرياضيات الكامنة» شبيهة جداً بتلك التي تعمل في الأشجار). كما تمكّن 
هذه الرزم المستخدم - بشكل آلي - بخلق وحفظ المتغير الجديد الموزعة في خانة 
أو المميز» في مجموعة البيانات» وهو أمر مريح. ونبين ذلك من خلال استخدام 
إحصائية الحزمة الإحصائية للعلوم الاجتماعية 21 لخلق 9 خانات من المتغير بالنسبة 
إلى العمر ليتم التركيز مرة أخرى على حالة عدم التأمين الصحي باعتبارها نتيجتنا 
الجدول رقم 3.7: استخدام شجرة مربع كاي للكشف عن التفاعل التلقائي 
(1141©) لوضع -- في الحزمة الإحصائية للعلوم الاجتماعية؛ بشكل مثالي. 
١: 0‏ / بدون تأمير: عدد الحاللات 





3 0 -23,001 06065 21059 
4 0--31,201 262)000 29.5 
5 7--40,001 20358ذ2 0100177ظك2 
6 49,998-0 2.59 2]03 
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22.16 03135 61,401-0 7 
20/13 232] 76,001--0 8 


2125 23533 96,991-0 9 





10 أزيد من 133,500 22.7 520 











صيغة عملية التمييز المثالي هي: 

11/7 1[ذ 0211 
810 ح لخد نانلى - 8111 0ع1لاكطاطنا - 0101101 4111481185 /١‏ 
8014111120 - 252210028255 241212 - 21811101 0111114/ 

(9 - 81315) 
1-5171 - 1017721111111 0 ح- طن 1ط الا 010سآ1 
1180171110110 - 11221110110 800101/10110النا ح رالاط 1017171 
1512 - 500218 0ل1115511/ 
لا8211120 2850112111785 012115 طلجط 1111ام/ 


وكما هو مبين في الجدول رقم 4.7» إن الحزمة الإحصائية للعلوم الاجتماعية 
تتتج تسع خانات بالنسبة إلى العمر. والمجموعات العمرية التي تم إنتاجها هنا شبيهة 
بتلك التي أنتجتها شجرة مربع كاي للكشف عن التفاعل التلقائي أعلاه. ولم يعد 
الشباب مقسمين إلى مجموعتين» ولكن ظهروا باعتبارهم مجموعة واحدة تتراوح 
أعمارهم بين 30-18. والنقطة الفاصلة بين المجموعة الأكبر سنا هي الآن 64 عوض 
3 (ومع ذلك ليست 65» وهو الأمر غير المتوقع إلى حدّ ما). 

نود الإشارة إلى مسألة أنه لو حددنا متغيراً مستقلاً مختلفاً فسيكون من المرجح 
أن يولّد البرنامج مجموعات عمرية مختلفة. إن العملية المثالية لعملية توزيع الخانات 
ينتج فئات من متغيرات مستمرة مثالية من حيث تنبؤ نتيجة معينة. ومهم تذكر أن 
العملية المثالية لتوزيع الخانات ليست أمرا تم القيام به في بداية مشروع التنقيب في 
البيانات» مع إمكانية استعمال فئاته المحصل عليها في تنبؤ العديد من المتغيرات 
التابعة المختلفة. وكل عملية من العمليات المثالية خاصة بمتغير تابع أو متغير نتيجة 


واحد. 
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(إحصائية الحزمة الإحصائية للعلوم الاجتماعية؛ 5855). 


9 | 109,838 | 151,087 
ال الدةا لمك تقضما اسمن لحي 





المجموع 1 | 531 | 43,622 








ملاحظة: كل جزئية احتسبت على أساس أنها أدنى < العمر < الأعلى :1086) 
(7عمملآا > عع > 

أما ولدينا الآن العمر فى خانات مميزة» يمكننا إدارة انحدار لوجيستى جديد 
لمعرقةا إن تتم غمة وضع الخانات التتوذع : وكااع ذلك فى السنارق ادم 
مصفغوفة الارتباك (الجدول 0 7) ورسم بياني ل أهمية المتنبئ (الشكل الرقم 
07) . وإن نموذج انحدارنا اللوجيستي الجديد له شبه مربع مكفادين 0*5ع1/161:200) 
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(100-172اء5م» 0.259 وتسجيل احتمال (15000اء!108-1.1) يصل إلى 
1 وه وكلاهما يشير إلى نموذج ذي تركيبات أفضل (58نناة167-1ا8). 
وتوضح مصفوفة الارتباك بتحقيقنا بعض التطورات في تصنيف كُل من الإيجابيات 
والسلبيات الصادقة. 


والشيء الأهم من كُل هذاء هو أننا نلاحظ في الشكل رقم 2.7 (مقارنة مع الشكل 
رقم 1.7)» أن العمر حتى الآن, المتنبئ الأهم لحالة التأمين الصحي؛ يعد الآن أكثر 
أهمية مرتين من الدخل الأسري. وإن ترتيب المتغيرات من حيث الأهمية لا يتغير 
بشكل كبير» مما يقترح أن العمر لا يصف الآن تباينا من التباينات السابقة التي تم 
وصفها سابقاً بواسطة متغيرات أخرى. لقد نتج عن عملية توزيع العمر في خانات؛ 
تحنناً حقيقياً في النموذج» عوض إعادة توزيع (1868110621108) «العمل» انطلاقاً من 
متغيرات أخرى إلى العمر. 

لقد بِيّنا في هذا القسم كيف يمكن استخدام أشجار التصنيف. وعملية توزيع 
الخانات المثالية» استخداماً مثمراً لاستكشاف اللا خطية في العلاقة بين متغيرات 
المتنبئ المستمرة وبين متغير نتيجة ثنائية التفرع. كما رأينا أيضاً كيف أن عملية 
استكشاف هذه العلاقات اللا خطية يمكن أن تفرز تحسناً في القدرة التنبؤية. بعد 
ذلك. نعود إلى العلاقة بين متنبئات مستمرة» ونتائج مستمرة» ونوضح كيف أن 
ممارسات مماثلة يمكنها أيضاً أن تكون مفيدة في هذه الحالة. 


الجدول رقم 5.7: مصفوفة الارتباك المتنبئة للتأمين الصحي مع تمييز العمر. 


مؤمن متنبأ غير مؤقن متنبأ دقة 


117 22101 2014 


غير مؤمّن حقيقي 21009 21006 12خ 
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أل أهسية أكثر أهمية 


الشكل رقم 2.7: أهمية المتنبئ باستخدام المتغير العمري ذي الخانة في إحصائية 
الحزمة الإحصائية للعلوم الاجتماعية. الهدف: غير مؤمّن. 

نتائج مستمرة ومتنبئات مستمرة 

إن المنطق نفسه الذي تم العمل به في حالة من حالات متغير نتيجة ثنائية التفرع» 
يمكن تطبيقه أيضاً على النتائج المستمرة. دعنا نقول إننا نحاول تنبؤ نتائج مقاسة 
بشكل مستمر مثل الدخل» مستخدمين سمة مقاسة أخرى بشكل مستمر. وإذا كانت 
العلاقة بين المتغيرين خطية: فإن الانحدار الخطى المعياري يمكن استخدامه 
بسهولة. وإذا كانت العلاقة منحنية الأضلاع (هعه15111ا0)» فإمكاننا إضافة قيم 
تربيعية» أو تكعيبية» أو قيم ذات ترتيب أعلى لتقريب العلاقة. وإذا وجدت نقطة أو 
مزيد من النقاط الفاصلة الواضحة. فبإمكاننا نمذجة العلاقة بشكل جيد من خلال 
مواءمة خدة (عصنامة) ما. 

ولكن أحيانا يمكن أن يرتبط متغيران اثنان على نحو أكثر تعقيداً. على سبيل 
المثال» لندرس العلاقة بين المكانة المهنية (ء8 ]2765 [3141008مناءء0): والدخل 
(مسجل). في الشكل رقم 3.7. على الرغم من وجود انّجاه تصاعدي عام في الدخل؛ 
كلما اتجهنا نحو قيم أعلى من المكانة المهنية» فمن الواضح وجود فواصل 
وانقطاعات في هذه العلاقة» ليست مضبوطة بشكل جيد بواسطة نمذجة خطية. وفي 
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الشكل رقم 3.7. قمئا بضم خط تربيعي تنبؤي في الترسيمة (2101)) ولكنه يلي التنبؤ 
الخطى بشكل كبير. 


15 


(وه1)ع تزمعما 
10 


5 





100 50 60 40 20 0 
“0 | 50108600011 لقع 1]نانا 





الشكل رقم 3.7: خطوط مخطط التشتت (508]]61:0101) والمناسبة الواصفة للعلاقة 
بين الدخل الشخصي والمكانة المهنية في مسح المجتمع الأميركي (مأخوذ عن «الستاتاا 
(51369. 

وإن عملية إضافة قيم ذات ترتيب عالي لا يعزز القوة الإيضاحية بقدر كبير» وهو 
أمر يتأكد من خلال أداء انحدار ما. (النتائج في الجدول رقم 6.7). إن القيمة الخطية 
بالنسبة إلى المكانة المهنية بمفردها تفسر حوالى 14/ من التباين فى دخل مسجل. 
ون إشاف ريسم نهيب عي يمرو قرة ينجي ةراقل كن 1 كن ازنالة 
نقطة. (إن المعاملات بالنسبة لهذه القيم ذات الترتيب العالي؛ تحقق دلالة إحصائية 
(ع5151111162116 5815121) في 01.>م ولكن يتم ذلك قبل كل شيء لأننا بصدد 
استخدام مجموعة بيانات تفوق 340.000 حالة. ومن خلال هذه القوة الإحصائية 
الكبيرة» سيكون - عملياً - كل متغير ذي دلالة إخصائياً فى مستويات «ألفا» 
المعيارية). ْ 
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ربما يتجلى المشكل - ببساطة قي وجو نقاط انعطاف (2012]5 1012]ء12116) 
كافية في نموذج تكعيبي؛ وفي عملية مواءمة د ماء قد تكون أكثر ملاءمة. وفي 
الشكل رقم 23.7 نوضح أيضاً متوسط خدة مناسبة» يضم عَقَداً متباعدة بشكل متساوء 
ولكن الخدة لا تختلف في الطريق كثيراً عن التنبؤ الخطي. كما أن إضافة قيم ذات قوة 
أعلى لهذا النموذجء لا يعزز القوة التنبؤية» لأن العلاقة أكثر تعقيداء مما يسمح به هذا 
النموذج. وإن إضافة الخدة لا يساعدء لأننا لا ندرك عدد نقاط الانعطاف في العلاقة 
بين المتغيرات» ولأن نقاط الانعطاف تلك ليست - على ما يبدو - متباعدة بشكل 
متساو. وفي هذه الحالة» يمكننا الاستفادة من تقنيات التنقيب في البيانات كي تساعدنا 
على العمل بشكل أفضل. 

وعندما تكون العلاقة بين متغيرين معقدة على النحو الذي نراه هناء نستطيع 
نمذجته بإنتاجية أكثر من خلال تقسيم بياناتنا إلى خانات منفصلة للمتغير الإيضاحي. 
وبعدها استخدام مجموعة من المتغيرات الوهمية لهذه الخانات. ولكن في حدود أي 
قيم من قيم مؤشر دونكا السوسيو اقتصادي (:1206 000101ع50016 311ع0نا(آ)» 
يتوجب علينا القيام بتقطيعاتنا؟ 


نستخدم دالة تقسيم «غامب برو» للقيام بذلك بالنسبة إليناء ونستخدم خيار 
الصلاحية المتبادلة لمطوية (1-75010) (بثلاث طيات). وسيمكننا هذا من الفصل 
فيما إن كنا بصدد الإفراط في عملية تناسبية النموذج. ولكنناء نستعمل 10/ من عينة 
مسح المجتمع الأمير كي لعام 2010, الذي يضم حوالي 340,000 حالة. وبهذه 
الحالات المتعددة» يمكننا بناء نموذج معقد جدأ من دون إفراط في التدريب. 


وإذا سمحنا بتشغيل النموذج حيث بداية صلاحية 87 في التراجع» ستقسم 
الشجرة البيانات إلى 79 مرة» مشكلة بذلك خانات المؤشر السوسيو اقتصادي. الآن» 
توجد في هذه البيانات فقط 81 قيمة من قيم المؤشر السوسيو اقتصادي المتميزة. 
وهذا ب يعني أن البرنامج أنتتج خانة منفصلة بالنسبة إلى كُل قيمة منفصلة على حدة. 
وهذه النتيجة - مع ذلك - هي دالة لكل من عملية منح أولوية للتنبؤ على إمكانية 
التفسير (12161056126111697)» وللحجم الكبير جدا لبياناتنا. وتوضح مجموعات 
البيانات الضخمة عملية المقايضة بين إمكانية التفسير والدقة التنبؤية» بطريقة لا تقدر 
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عليها مجموعات البيانات الضخمة التقليدية. إننا نريد أن نبسط نموذجنا الخاص 
بالبيانات» بطريقة مفيدة - كي نختصر ذلك. لكن ببساطة» لا يوجد قدر كبير من 
المقايضة فى مجموعات كانت ين التعقّد (1»«»17م0ه0©) والدقة. وسنكون 
في حاجة إلى فرض قيد على التعقّد إلى درجة تبدأ فيها إمكانية التفسير في الانحدار. 
وسيوضع هذا القيد بشكل عشوائي جداًء ومن ثم نقرر إعادة شذب الشجر للحصول 
على 12 تقسيمات. وعند هذا العدد من التقسيمات» نكون قد ضحينا فقط بقدر صغير 
من الدقة التنبؤية» ولكننا في الوقت ذاته. نكون قد حسنا من إمكانية التفسير. 


الحدول رقم 7 نماذج انحدار المربعات الصغرى العادية (01.5) المتنبئة 
(لسجيل) الدخل من خلال مؤشر دونكا السوسيو اقتصادي. 


نموذج 1 نموذج 2 نموذج 3 

2003100** 2 0.0061*** 2 0.0169***  يداصتقا المؤشر السرسيو‎ ١ 
-0.0004*** -0.0001*** المؤشر السوسيو اقتصادي”‎ 
>01 ** المؤشر السوسيو الاقتصادية3‎ 

ثابتة 2053 202 1005 
]1 0143 017 019 
جذر متوسط مربع الانحراف ‏ 0.998 0.6 005 
(224512) 
المصدر: مسح المجتمع الأميركي. 2010. 
.001 > م **» 


إن حل المجموعات الثلاثة عشر التى قمنا بتسويتهاء يمكن ملاحظته فى الشكل 
رقم 4.7» والجدول رقم 7 كما رأينا سابق إن العلقة العامة بين الوكانة المهنية 
والدخل إيجابي» ولكن النمو ليس رتيباً. وفي الثلثين الأقل انخفاضاً من معدلات 
اتات المف قي يوجد نمط من الزيادات والاتخفاقنات فى الدخلء وإيحائية 
المقانفات مدي" الدضل والتخالة الاجمافة ويك ليذه العلاعة السميرة بلا خظرة 
معقدة» ملاحظتها في الشكل رقم 5.7. 
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إن عملية الانفصال (1(015016]12128) بهذه الطريقة» تعزز القوة الإيضاحية 
(80171 /013131017م)<8). بنسبة 35/ من 852-0.1438 إلى 182-0.1945, ولكن هل 
الانفصال مفيد بمجرد كوننا نستخدم فقط متنبئاً وحيداً؟ وهل سيبقى المكسب في 
القوة التنبؤية قائماً بعد إضافة المتغيرات المشاركة (078118]65©)» أو هل ستكون 
المتغيرات الإضافية ذات الصلة»ء قادرة على أداء العمل الذي قامت به عملية 
الانفصال؟ 


نجيب عن هذا السؤال في الجدول رقم 8.7 من خلال إضافة بعض المتغيرات 
المشاركة المعيارية الأجور. ونبدأ أولاً بالشكل التربيعي للعمر. وهذه الإضافة» تعزز 
نسبة التباين الذي تم شرحه بشكل كبير» ولكن يبقى المكسب واضحاً بين النموذج 
مع وجود قيمة خطية وحيدة بالنسبة إلى المؤشر السوسيو اقتصادي والشكل 
المنفصل. ويعزز التحصيل التربوي *1 في نموذج المؤشر السوسيو اقتصادي الخطي 
ب0.037: وفي نموذج المؤشر السوسيو اقتصادي المنفصل ب 0.030. ويبقى الفرق 
في 87 مع النموذج المنفصل الذي نشرح بنسبة تباين تصل إلى 3/. وفي الأخيرء 
نضيف افتراضات بالنسبة إلى الجنوسة؛ والعرق, مما يعزز أكثرء القوة الإيضاحية 
للنموذجين كليهما. وقد تقلص الفرق أكثر في 17 بين النماذج إلى حوالي 0.018. 

وهل يمثل هذا فرقاً كبيراً؟ وهل - حقيقة - عملية الانفصال مهمة جداً إلى هذه 
الدرجة؟ نؤكد أهميتها لعدد من الأسباب. 

أولاً: تبقى الفوارق في القوة التنبؤية حتى بعد إضافة بعض المتنبئات الأكثر قوة 
للدخل. 

ثانياً: قمنا بعملية الانفصال بمتغير واحد فقطء وهذا يحسن - مع ذلك - دقتنا 
التنبؤية بشكل كبير. 
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(المكانة المهنية) إلى ثلاثة عشر خانات. 


الحدول رقم 7.7: معدل الدخل بفئة المؤشر السوسيو اقتصادي المنفصل. 
معدل المؤشر السوسيو اقتصادي متوسط الدخل 35 
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المثيرة للعلاقة بين الدخل والمكانة المهنية» التي تعتبر مجرد ضجيج إحصائي في 


1/3 





التحليلاات المعيارية. ونريد أن نقر النمط العام بمقاييس بديلة للمكانة» وبتنبؤات 
مأخوذة من العينة» ولكن ربما على الرغم من وجود علاقة خطية إيجابية عامة بين 
المكانية والدخل» هناك مقايضات محلية ضغيرة» حيث تؤدي المهنة المرموقة أجراً 
أقل - إلى حدّ ما - من مهنة أقل مقافاً. 


قيع متنبأة للدخل بالنسية إلى مقاييس مؤشر دونكا السوسيو اقتصادي المتقصل 


7 


ير 


12 


11 


الدخل (مسجل) 


87-9292-0 77-86 65-76 47-64 46 42-45 27-41 25-26 18-24 16-17 4-15 1-3 
مقياس موؤشر دونكا السوسيو اقتصادي 


الشكل رقم 5.7: القيمة المتنبأة للدخل الشخصي 


بالنسبة إلى مؤّشر دونكا السوسيو اقتصادي المنفصل (1260)ء1ء115). 


الجدول رقم 7 إضافة متغيرات منفصلة قد تمَكن من تحسين التنبؤ (مقاسة ب-12). 


المؤّشر السوسيو اقتصادي فقط 














151ل | 0.9987 | 0.9687 | 0.9320 0.9085 | 0.9088 4 | 0.8788 | 0.8663 
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عملية توزيع متنبئات مصنفة 

لقد رأينا سابقاً كيف أن أشجار التصنيف يمكن استخدامها في توزيع متغير 
مستمر بشكل مثالي في علاقتها نتيجة من النتائج التي نحاول تنبؤها. وتعمل هذه 
الطريقة بشكل جيد في الحالة التي تتميز فيها العلاقة بين المتنبئ والنتيجة باللا خطية 
البتعفاة ة. كما يمكن أيضاً استخدام الأشجار على نحو ممائل لإنتاج خانات لمتنبئات 
تصنيفية. لنقل إن متغيراً اسمياً يملك - نسبياً - عدداً كبيرا من الفئات (مثل متغير 
ل ا لك الو و 
(0655كناه تمه مصتدموط). إننا نود تصنيف المية - وهذا أمر مثالي بالنسبة إلينا - إلى 
فئات أقل» على نحو نسعى فيه إلى تحسين قدرة نموذجنا التنبؤي - أو على الأقل» 
على نحو نستفيد فيه من التقتير أكثر مما نخسر ذ في التنبؤ الأولي. تقليدياء لد ميا 
نظرياً من وراء ضرورة ضمّ بعض المهن معاً. ا 
درجة يكون لهذا التصنيف معنى ضمن نموذج انحدار ما. وإذا لم يعمل مخطط 
تصنيف معين بشكل جيدء نتخلى - ببساطة - عنه» ونجرب آخر الذي نظنه «ذا 
معنى). 

ويقترح التنقيب في البيانات إمكانية أخرى. ماذا لو أنتجنا تصنيفنا بطريقة : 
ال ا ا 1 
المتغير المستقل أو متغير النتيجة» معاقبين بذلك النموذج على ضمه مَعلمات 
إضافية؟ وننتج بعدها توزيعاً للفئات مثالية من حيث مقايضة التقتير - التؤ. 


ولبيان قصدناء نستند - من جديد - إلى بيانات انتخاباتنا على مستوى المحافظة 
لعام 2012. إن وحدات ترصدنا هي المحافظات» بحيث تتمثل كُل محافظة في ولاية 
معينة. لنقل إننا نريد فحص تآثير الولايات في تنبؤ حصة أوباما (5:8ة06) من 
التصويت حسب الولاية. نستطيع ضم 50 ولاية برمتها باعتبارها متغيرات وهمية في 
نموذج انحدارناء غير أن هذا غير أنيق. وهناك خيار آخر تم استعماله بشكل عامء 
ويتمثل في جمع الولايات ضمن فئات أكبر على مستوى الجهة (مثل إقليم ذي تعداد 
من فئة -4 أو من فئة -9)» أو على مستوى ميزة أخرى (جنوب/ لا-جنوبء, الحق- 
في - العمل. مقابل» الحق - في - عدم - العمل» وهكذا). وقد تصلح تلك 
الاستراتيجيات لغاياتناء ولكنها طرق غير مباشرة تماماًء في بلوغ ما نريد في حقيقة 
الأمر: ولايات يكون فيها معدل التصويت لأوباما على مستوى المحافظة أعلى أو 
أقل» مجزأة إلى فئات مثالية. 
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الشكل رقم 6.7: استخدام أجزاء من الشجرة لإيضاح المتغير الاسمي الفئوي (حالة) 
في الغامب برو. 


وننتتج شجرة تقسيم في «الغامب بروا» مرة أخرى من خلال اختيار تحليل تقسيم 


النمذجة (221618102 ع2ذاء2100 431:2 ). وكل ما نقوم به - بعد ذلك - اختيار 
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متغيرنا التابع رحعة امام التصريتاء رمعي مكل راعذ إولاءة. وبما أن 

متغير الولاية يتميز في «الغامب برو» بكونه فئويء فإن شجرة التقسيم بارال 
الطرق الممكنة لمزج الولايات داخل مجموعتين» واختيار الولاية التي تنتج 
المججهوفقي المكتفين 'قدر الإمكان من يك قيمةمتوسط المتغير م 
أوباما من التصويت). 


وإن القسم الأولء المبين ذ في الكل رم 7 ينتج مجموعة واحدة من الولايات 
التي تملك محافظاتها متوسط حصة أوباما من التصويت بنسبة 31.7/» وتملك 
مجموعة أخرى من الولايات 46.2/. وتضم المجموعة الأولى, الولايات الأكثر 
احمراراً من كُلَ الولايات الحمراء - أوكلاهوماء وتكساس. وآوتاه. وأركاساس- 
في حين تضم المجموعة الثانية كَل الولايات الزرقاء إضافة إلى عدد من الولايات 
الحمراء بشكل قوي مثل جنوب كاروليناء والميسيسيبي. وتقسم مجموعة ثانية من 
التقسيمات الولايات إلى تقسيمات فرعية تصل إلى أربعة مجموعات بمتوسط 
حقهن التصويت على متوىق اليعافظات يلخ 127 و35/. و44/. و53./ على 
التوالي. وقد فصل التقسيم الثاني في الجهة «اليمنى». الولايات إلى تلك التي تعد 
ديمقراطية بشكل موثوق فيه (مثل جزيرة رود. ونيويورك» وكاليفورنياء وهاواي) 
وولايات ذات ساحة معركة أكثر سخونة (فلوريداء بنسلفانياء ونيو مكسيكو). ولاحظ 
أنه على الرغم من أن هذا التمييز لا يخبرنا بالقصة كاملة - ولاية ألينوي الزرقاء بقوة» 
مثلاء في هذه المجموعة التي تشكل ساحة معركة؛ كما هو الحال بالنسبة إلى 
ميسيسيبى ميسيسيبي» معقل الجمهوريين. أما التقسيم في الجهة «اليسرى»» فقد فصل الولايات 
إلى حمراء جداً (آوتاه» وكانساسء وإيداهو)» وغير حمراء بشكل قوي (جورجياء 
وكنتاكىء, وإنديانا). 


الجدول رقم 7 توزيع الولايات. 


متو سط حصة 
أوباما من التصويت 
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الجدول رقم 10.7: تأثير توزيع المتغيرات المستمرة إلى خانات في 82. 


افتراضات الولايات مود | 2وقق 


فئات التنقيب في البيانات 8 . 7-. 1.8 
منطقة التعداد 167 5 . ]1 
2223 


ضوابط إضافية + فئات التنقيب فى البيانات | 6918. 6.605 





ضوابط إضافية + منطقة التعداد 6. 63. 866 





ويسمح «الغامب برو») ببناء شجرة لتعظيم المواءمة في عينة الصلاحية المتبادلة» 
ولكننا نسعى هنا إلى القيام بشيء مختلف قليلاً. إننا نحاول تعظيم التنبؤ والتقتير في 
آن واحدٍ عوض منع الإفراط في التدريب. وفي «الغامب برو»» يتم ذلك من خلال بناء 


شجرة شي فشيئاء مع فحص إحخصاء تطابقي/ تناسبي عقب كل ثة تقسيم. ونفحص 
حركة معيار أكايكى للمعلومة (01161100) 1510:0260 عكلةءانث).؛ التى تقيس 
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التناسبء وتعاقب نموذجاً ما لإضافته المَعْلمات. ولأن قيم معيار أكايكي للمعلومة 
يشير إلى تناسب أفضلء فإننا نبني الشجرة ما دام معيار أكايكي للمعلومة يستمر في 
الهبوط. وعندما يبدأ في الصعود مرة أخرىء نشذب الشجرة ثانية إلى نقطة كان فيها 
معيار أكايكي للمعلومة الأدنى. 

وإن القيام بذلك يولد 11 فئة من الولايات؛ كُلٌ بمتوسط قيمة مختلف بالنسبة 
إلى حصة أوباما في التصويت. وقد تم تمثيل هذه الفئات الإحدى عشر في الجدول 
رقم 9.7» من الحصة الأكبر إلى الأصغر من حصص متوسط التصويت لدى أوباما 
على مستوى المحافظة. 


ومن الواضح وجود بعض الولايات النشاز في الجانبين معاً (هاواي. وواشنطن 
د. س.. في الجانب الموالي لأوباماء وأهوتاه في الجانب المعارض له)» وسينتهي 
التحال إلى وصود مجيوهات مد دا وسمحموعات كيرة فى الوميط ,بولا بد هد 
الأقازة إلق أل الولايات تجم و ]ليا إلى حذاها: وكلولاياترويطاها الجديهة- 
في النهاية - توجد في المجموعتين الثانية والثالثة» في حين تظهر ولايات جنوب 
المحيط الأطلسي في المجموعتين الخامسة والسابعة. 


ويقارن الجدول رقم 10.7 الدقة التنبؤية لتجمّع الولايات الذي توصلنا إليه عبر 
التنقيب في البيانات مع ذلك الذي حصلنا عليه باستخدام تصنيف مستلم مثل منطقة 
التعداد. إن لدى تصنيفنا 11 فئة» وهناك 9 مناطق تعداد فقطء ومن ثم» فمن المفيد 
التركيز على قياس تناسب نموذج مثل 37 المعدلة (الذي يعاقب نموذجا ما على ضمه 
معلومات إضافية) من أجل مقارنة عادلة. كما نقارن أيضا تصنيفناء مقابل نموذج 
يضم افتراض واحد بالنسبة إلى كَل ولاية (ومن ثمء واحد ذو 50 فئة). إن تصنيف 
التنقيب في البيانات يتفوق بشكل واسع على مخطط تصنيف منطقة التعداد» مفسرا 
مرتين التباين في حصة التصويت بشكل عام» ولكن يبقى جذر مربعه 17 المعدل أقل 
انخفاضا قليلا. وبالتالي» من خلال استخدامنا التنقيب في البيانات» نكون قادرين 


تقريبا على تفسير قدرأ من التباين في المتغير التابع مع نموذج أكثر تقتيرا بكثير. 
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للغاية!2)» في أسفل الصفوف الثلاثة لجدول رقم 10.7. ونقوم بذلك لاختبار إمكانية 
معرفنا لمكان المحافظة. لا يوفر أي معلومة. تعجز متغيرات أخرى عن وصفها. وفي 
الحقيقة» عندما ندير انحداراً ما الذي يتنبأ بحصة أوباما من التصويت ويضم فقط 
متغيرات الضابط الديموغرافي» نكون قد فسرنا قدراً لا بأس به من التباين - 54/. 
وعندما نضيف متغيرات منطقة التعداد. نكون قادرين على تفسير نحو 11/ أكثر من 
التباين» وعادة ما يكون ذلك كافٍ. وسنرى في القوة التنبؤية المحسّنة للنموذج الذي 
يضم منطقة التعداد» ونختم بأهمية المناطق في مغزى آخر. ولكن في هذا المثالء 
لدينا أيضاً التصنيف «المثالي» للولايات انطلاقاً من التنقيب في البيانات. ويعد 
استخدام هذا التصنيف أفضل» حتى في نموذج ذو ضوابط كبيرة: ترتفع 17 المعدلة 
من 0.65 إلى 0.68. 


استخدام أشجار التقسيم لدراسة التفاعلات 


ثمة استخدام آخر لأشجار التقسيم» ويتمثل في تحديد التفاعلات المهمة بين 
المتغيرات. وتشجعنا نمذجة الانحدار التقليدي على التفكير في العالم باعتباره مكوناً 
من سلسلة من خصائص إضافية: فاحتمال توظيف شخص ما يشكل دلالة خطية 
لجنوسته» وعرقه» واعتماده التربوي» وعمره» وتاريخ أعماله السابقة» مثلة. كما 
يشكل الدخل دالة إضافية للعمر (تربيع)» والتجربة» والتمدرس. 


وأحياناًء نقر بكون المتغيرات تتفاعل لإنتاج النتائج. وربما يتفوق تأثير التعليم 
فى الدخل» على جنوسة شخص ما؛ أو ربما يتوقف تأثير معدل البطالة فى احتمال 


(2) تتجلى حالات الضبط الإضافية لديناء في ثلاث قياسات من التوزيع العمري (نسبة الساكنة أقل من 18 
ونسب عمرية بين 18 -34» ونسبة 65 أو أكبر)ء وثلاث قياسات من التوزيع العرقي (نسب البييض غير 
الهيسبانك. والسود. واللاتينيين)» وثلاث قياسات من التوزيع التربوي (نسبة السكان البالغين الحاصلين 
على شهادة أقل من شهادة الثانوية» ونسبة من كان يحضر فى الكلية» لكنه غادر دون حصوله على شهادة» 
ونسبة من حصلوا على درجة الباكالوريوسء أو درجة أكبر منها)» ونسبة البطالة بين الذكورء ونسبة الفقرء 
ونسبة اليد العاملة في المهن الفنية والإدارية» ونسبة الساكنة البروتستانتية الأنجلكانية (المراجع). 
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إعادة الانتخابات الحالية على ما إن كانت البلاد تعيش حالة حرب أم سلم. فبالنسبة 
إلى الجزء الأكبر؛ نتعامل مع التفاعلات على هذا النحو تماماً: إن التفاعلات في 
اتجاهين معقدة بقدر ما نسمح للعالم أن يظهر في نماذجنا. 


إن أشجار التقسيم يمكننا من البحث عن التفاعلات الأكثر تعقيداً. ولمعرفة 
السبب. نحتاج إلى الإشارة بشكل مختصر إلى معرفة الشيء الذي تقوم به الأشجار 
(مزيداً من التفاصيل تجدونه في الفصل 10). إن لوغاريئمات الشجرة تقسم الحالات 
في بياناتناء إلى مجموعتين متجانستين قدر الإمكان من حيث النتيجة. وتقوم بذلك 
من خلال تجريب كُلَ قيمة ممكنة لكُلَ متغير مستقل: وإيجاد السبيل الأفضل لتقسيم 
العينة إلى مجموعات فرعية. وبعد قيامها بالتقسيم الأولء تكرر العملية مرات عديدة؛» 
فتئتج كُل مرة تجميعات متجائسة بشكل متزايد على مستوى النتيجة أو المتغير التابع؛ 
ومختلفة عن بعضها بعضا بشكل متزايد. 
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الشكل رقم 7 شحرة حالة التأمين الصحي - التقسيم الأول للبيانات. 


وبما أن المتغيرات المتنوعة تم انتقاؤها لإنتاج الحالات التي انتهت في الأخير 
بتجميعها في «أوراق' نهائية» يمكننا التفكير في كُلّ ورقة محددة بتفاعل معقد من 
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القيم. وبهذه الطريقة» تساعدنا الأشحار- علين :استكفاف تفاعلاات معقدة يصعب 
علينا تحديدها. 

ونبين هذا باستعمال بيانات مسح المجتمع الأميركي لعام 2010. ونترك شجرة ما 
تنمو مستعملين كمتغير تابع» مؤشر الحصول على تغطية التأمين الصحيء والعمرء 
ومستعملين العرق» والمواطنة» والجنوسة» ودخل الأسرة. والعمر» والتحصيل 
التربويء والحالة الوظيفية» والحالة الاجتماعية» باعتبارها متغيرات مستقلة. ونستعمل 
تقسيم في وقت واحد للحصول على شجرة متواضعة من حيث الحجم. وبخلاف ما 
كان في القسم السابق» لم نوازن البيانات حول النتيجة» وطبقنا وزن السكان. وإن 
الاحتمالات المشروطة الناتجة» تشكل - إذن - تقديرات كميات السكان. 


وفي الشكل رقم 7.7» نرى أن في عقدة الجذر (كل الحالات)». لدى حوالي 
7 من أصل كل الحالات» شكلاً من أشكال التأمين الصحيء وحوالي 15.7/ لا 
تملك ذلك. وإن تلك الحالات الموجودة في الأسر ذوي الدخل المختلط الذي يصل 
إلى 555,000 على الأقل كُلَ عام, تبلغ 92/ من المؤمّنين؛ وفي الأسر ذوي الدخل 
الأقل انخفاضاًء بلغ معدل التأمين حوالي 78/ تقريباً. 

ويمكننا متابعة هذين الفرعين أكثر (الشكل رقم 8.7). وبين المجموعة الأكثر 
ثراء» تستمر الشجرة في التمييز حسب حالة التأمين الصحي. وتم تقسيم ثانٍ في الدخل 
فى حدود حوالى 585,000 . وبين المجموعة ذات الدخل الأقل انخفاضا نسبيا(الدخل 
بين حوالي 555,000 و585,000)» تعد المواطنة» الأكثر تنبؤاً للتأمين. وحوالي النصف 
من غير المواطنين في هذه المجموعة ذات الدخل المرتفع» تفتقر إلى الوصول على 
التأمين الصحي حسب هذه البيانات. وهذا مختلف جدا عن مواطني الولايات المتحدة 
في المجموعة ذات الدخل نفسه. إذيملك حوالي ما يزيد من 2/90 تغطية صحية. ويبرز 
ذلك تقاعاد بين النخل والمواطنة خخ الأمبرذات الاخل المتوسط العالى: وزيق 
المواطنين على مستوى هذا الدخل» هناك تقسيم في سن 65: حوالي 100/ من الفئة 
الأكبر سنا مؤمّنة. ومن بين أولئك الذين يتجاوز دخلهم 585,000» من بيضء وآسيويين 
وأفراد من «أعراق أخرى». هناك حوالي 95/ من المؤمّنين» في حين لا تتجاوز نسبة 
التأمين لدى السود. واللاتينيين» والأميركيين اللأصليين 86/. 
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وإذا ما اتبعنا الفرع الأيمن (غير المعروض)» بما في ذلك أولئك الذين لهم دخل 
أقل من 555,000) فسنجد أن بداية أي عمر هو المتنبئ الأهم في حالة التأمين. أما 
أولئك المؤهلين للرعاية الصحية: وتتجاوز أعمارهم 65+» فهم عملياً مؤمنين بشكل 
عام. وأما غير كبار السنء فيقسمون بعدها مرة أخرى عند سنّ الرشد. ولا يستفيد من 
التأمين إلا حوالي 12/ من أطفال الأسر ذوي الدخل أقل من 555,000 سنوياًء ولكن 
يستفيد حوالي ثلث البالغين في سنّ العمل. ومع ذلك إن المواطنة بين الأطفال» تتنبأ 
بالتأمين بشكل كبير؛ ولا يفتقر إلى التأمين من المواطنين الأميركيين في حدود هذا 
الدخلء إلا حوالي 2/10 بينما يستفيد حوالي النصف من القاصرين غير المواطنين 
من هذا التأمين. ومن بين الراشدين في سنّ العمل؛ نجد تقسيمات من جديد في 
الدخل (في حدود 535,000)» والمواطنة؛ والحالة الوظيفية. ١‏ 





الشكل رقم 8.7: تقسيم آخر لبيانات موجودة 
بين هؤلاء ذوي الدخل الذي يزيد على 555,000. 


وعموماً ننتج شجرة ذات 13 ورقة. وتضم هذه الأوراق نسباً مختلفة من العينة» 


ولها نتائج مختلفة بشكل كبير من حيث التأمين الصحي كما هو موصوف في 
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ومن المهم الإشارة إلى أن أشجار التقسيم» » لااى: تنتقي فقط المتغيرات التي تميز 

كر سر ب در تر ارين رون لكر وإنها ‏ تقوم بذلك بالطريقة ة التي 
تنظم بها بشكل حجيذ» كل الحالاات في هذه الخانات. وهكذاء تأخذ بعين الاعتبار 
نسبة الحالات التي تقع فى المجموعات المحددة بالأوراق. وإن القيام بتقسيم يقسّم 
ا ا 
م ا ل وا و ب 0 
يا مض سو ما امس و و 
تأمين منخفضء صغيرة جدا. ومن ثم, تكون غالبية غير المؤمّنين ضمن مجموعات 
ذات مستويات تأمين معتدلة. مثلآء إن المواطنين الموظفين في سن العمل ذوي 
الكل المتتفقى عر مومترن في خدوداتضبة بتراوع 4/92 ويفسز و وانسة 2+5 
من كل أولئك الذين يفتقرون إلى التأمين. 


وهل يمكننا استخدام هذه الالح امي المدة لحري ١‏ ف الجر ريم 
7 نبين عدداً من نماذج الانحدار اللوجيستي الذي يتنبأ تغطية التأمين الصحي. 
وتذكر أن في هذه البيانات» تتوفر أكثر من 80/ من الحالات»؛ على التغطية الصحية» 
ليكون بذلك انهيار المتغير التابع مائلاً (51060م1.0) جداً . وفي هذا النوع من الحالاات 
- وكما أشرنا إلى ذلك سابقاً - يمكن لنموذج ما أن يظهر نجاعته بشكل كبير في 
تعب الخالات شك صخ هن كيلال تو نيحة إعناية بالنسبة إلئ: كل 
الحالاات؛ أي بإمكان نموذج ماء القيام بعمل جيد بخصوص إحصاء تطابقي» يحدد 
النسبة التي تصنف بشكل صحيح. من خلال تخصيص كُلَ الحالات لنتائج الأغلبية 
(المؤمّنين في هذه الحالة). 


الجدول رقم 11.7: أوراق الشحرة. 
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5 5 ش الجسية | إن . الحالة | نسبة | نسبة كُلّ 0 
١ 7‏ 1 ا 
لور دخبل الاسرة عير الأمير ٠‏ العرق المهنية | المؤمّنين ايت | المؤمنين 
1 200 | | أبيض؛ | | 4 | 23.58 | 6.25 
١‏ لجميع | الجميع اتير ا لجميع . . . 
5 
2 260 الجميع | الجميع لاتينيء الجميع | 8628 | 504 | 4.41 
جم اه جم 
أصلي 














3 0 -355.000 025 
4 0 -355,000 1011 
5 0 -555.000 3.11 
6 00> 0532 
7 0- 226 
8 00> 160 
9 0 --531.000 1481 
10 331,000-0 5.13 
11 10ظ 033ؤآ2 
12 10ظظ1ظ 76 
13 1,0ظآظ2ظ 1103 























وبالتالي» سيكون لزاماً على نموذج جيد القيام بأفضل من ذلك - سيكون أكثر 
دقة» ويقوم بعمل لاتق للتمييز بين الإيجابيات الصادقة والكاذبة. وسنراقب عدداً من 
قياسات تناسب النموذج. وفي الحقيقة. إن 87 - الزائفة (100-17اءو2) نقياضاً لا 
بأس به في ضبط مدى أفضلية نموذج ما على تخمين عشوائي في هذه الحالة» لتحديده 
مدى أفضلية نموذج ما على نموذج صفري (800461 1انال2). إن إحصاءات معيار 
أكايكي للمعلومة ومعيار بايز للمعلومة ضمّت في التحليل» الرغبة في كل من التنبؤ 
والتقتير. وكما قلنا أعلاه. إن استخدام النسبة بشكل صحيح. المصنفة باعتبارها 
معيارنا لنموذج جيد» هو أمر مضلل في هذه الحالة» بسبب انعدام توازن البيانات من 
حيث النتائج. ونود هنا - في الحقيقة - فحص خصوصية النموذج: نسبة أولئك 
الذين يفتقرون إلى تأمين» ومصنفين بشكل صحيح على هذا الأساس. والمنطقة في 
ظل منحنى خاصية التشغيل المتلقى (71566عاعهمةطن) 8 متتهرءم0 ؟عتكاعءع ]1). 
تقيس أيضا مدى أفضلية نموذج ما على تخمين عشوائي. 
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الجدول رقم 7: تأثير إضافة افتراضات الورقة إلى نموذج تنبؤي. 
















1 متغيرات المكون 1 2-. | 204,421.9 128100 
2 افتراضات الورقة فقط 9 | .196,559 165كآ12 
3 متغيرات المكون + الأوراق 0.. | 189,596.5 9260/7 


4 | متغيرات ضبط إضافية فقط 2 | 0.0546 | 227.415.8 0 
حالات الضبط 
+ متغيرات المكوّن 
6 حالات الضبط + أوراق 10. | 189,788.6 | 190,086.3 123129 


حالات الضبط + نات + 
5 0 كر 2 5. | 1852,801.2 | 183.205.2 | 185781 
أوراف 


1. العمرء دخل الأسرة» العرق. المواطنة» الحالة الوظيفية. 

2. الجنوسة؛ والتحصيل التربوي. والحضور المدرسي. والدين.ء والعالة العائلية. 

المصدر: مسح المجتمع الأميركي لعام 2010. ١‏ 

أولاً: ندير نموذجاً يضم نسخاً #ساذجة» للمتغيرات المستعملة من لدن شجرة 
التقسيم أعلاه؛ أي نضمّ فقط العمر (باعتباره متغيراً مستمراً)» ودخل الأسرة (وهو 
أيضاً متغير مستمر)» والعرق (خمس مجموعات منفصلة)» والحالة المدنية (ثلاث 
مجموعات: مواطن بالولادة» مواطن مجنس» ومواطن فاقد للمواطنة)» والحالة 
المهنية. ويعمل هذا النموذج - في الواقع - بشكل غير سيء تماماء بل إن المنطقة في 
ظل منحنى خاصية التشغيل المتلقي. تقترح أفضلية عمله على التخمين العشوائي 
بنسبة 55/» وتصنف نسبة 15/ من غير المؤمّنين» بشكل صحيح. ويعد هذا - جزثيا 
- شاهداً على العون المقدم من لدن شجرة التقسيمء مع اعتبار أن الشجرة انتقت 
المتغيرات التى استخدمناها هناء مشيرة إلى احتمال أهميتها كثيراً. ونقارن هذا 
بنموذج متغيرات وهمية لكل 13 ورقة» أنتجتها شجرة تقسيمنا (في الحقيقة» 12 
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ورقة» إذا ما استخدمنا المجموعة الأكبر بمثابة مرجع). ولاحظ أن هذه ليست 
متغيرات وهمية كما تعودنا على التفكير فيها. إنها تعرف بتقاطع خمس خصائصء 
بحيث يقاس اثنان منها بشكل مستمر (ولكن تقسم إلى مجموعات)» أما ما تبقى» 
فهي قياسات عامة. علاوة على ذلكء لا نستخدم كل التركيبات الممكنة لهذه 
المتغيرات فى التحليل» ولكن نستعمل فقط مجموعات خاصة محلددة أعلاه؛ 
عير | كيو د تستو عن انان الدقيل والتدرن افيه القن وال ميري 
جميعهم, إضافة إلى أفراد من «أعراق أخر» ضمن أسر ذات دخل يفوق 985,0000 
سنوياء بغض النظر عن المواطنة» والعمرء والحالة الوظيفية. ولكن تشترك المواطنةء 
والعمرء والحالة العاتلية فى الفوارق بين مجموعات أخرى. وتتميز المجموعة 1 
بخاطة عن المجموعة 3 حسب تضيفات العرق» وعن كُلَ التجموعات الأخرئ 
بنتقطة فاصلة في الدخل. 

إن النموذج الذي يحتوي فقط على افتراضات «الورقة» هذه. يؤديء إلى حد ماء 
وظيفة أفضل من متغيرات «المكوّن» - أي التأثيرات الرئيسة غير الخاضعة للتحويل. 
وعندما نقوم بدمج مجموعتي المتغير هذينء نقوم بشيء أفضل (باستثناء مستوى 
الخصوصية). ومع ذلك؛ ليست الفوارق في الدقة التنبؤية كبيرة. 

وبعد ذلك» نختبر نموذجاً يحتوي فقط على متغيرات إضافية (الجنوسة 
والتحصيل التربويء والديانة» والحالة الاجتماعية)» لم يتم انتقاؤها بواسطة شجرة 
التقسيم. ونريد اختبار ما إن كان الامتياز التنبؤي الذي منحته متغيرات الورقة» شيئا 
يمكن أداؤه فقط من خلال ضمٌ مزيد من المتغيرات المستقلة في النموذجء متغيرات 
ربما تكون مترابطة بشكل معتدل مع متغيرات المكوّن. وهذه المتغيرات - في حد 
ذاتها - ذات قيمة تنبؤية» وإن كانت بنسبة محدودة (لتمنح 12 - زائفة تقدر ب 0.05). 
وتعرض نتائج هذا النموذج لتأسيس خط أساس جديد. ويمكن أن نرى من خلال 
فحص الحساسية والخصوصية. قيام النموذج اللوجيستي هنا - في غياب معلومة 
أفضل - فقط بتصنيف كل الحالات باعتبارها تنتمي لطبقة النتيجة المهيمنة. 


وفى النموذجين 27-5 نضيف المتغيرات المستخدمة فى النموذجين 3-1 أعلاه. 
وعندما تضاف متغيرات الضبط إلى متغيرات المكوّن. تقودنا تقريباً إلى الدقة التنبؤية 
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نفسها التى كانت لدينا لما استخدمنا فقط افتراضات الورقة. وهل هذا يعنى أن 
الأززاق ليست أفضل كماما من إضافة حالات الضبط ؟ يخبرنا التموقج 6):ريماء بعلام 
صحة ذلك؛ فالأوراق تساهم بشكل كبير في تنبؤ النتيجة على قمة حالات لضبطء 
وتعمل عملاً أفضل من متغيرات المكوّن نفسها (النموذج 5) من حيث قياسات 
العتاسية: 


وأخيراًء نقدم نموذجاً تضم فيه جميع حالات الضبطء والأوراقء والمكوّنات. 
ولهذا النموذج أكبر دقة تنبؤية من حيث كل قياسات التناسب باستثناء الحساسية التي 
تعد الأعلى في النموذج 4» ببساطة لأنها خصصت كُلَ الحالات للنتيجة الإيجابية 
(ومن ثم ضبط 100/ من الإيجابيات الصادقة). وليست الدقة التنبؤية أكبر بشكل 
كبير» ولكن قدرتنا على الحصول على امتياز باستخدام قيم تفاعل مولّدة من شجرة 
التقسيم هو أمر مهمء خاصة إذا ما اعتبرنا أن الطبيعة المائلة للنتيجة» تشكل تحديات 
أمام أي نموذج تصنيف كان. بالإضافة إلى ذلك» يجب الإشارة إلى أن شجرة 
التصنيف كان يسمح لها بالانقسام 12 مرة فقط في هذه البيانات. وإذا ما تركنا الشجرة 
تنمو بشكل كاملء فستنقسم إلى مجموعات أصغر. وقد تكون القيم التنبؤية لقيم 
التفاعل تحسنت نوعاً ماء إذا ما واصلنا التقسيم. 


ويتجلى ضعف طريقة الشجرة - مرة أخرى - في تأويل النموذج النهائي. 
وعندما تستخدم أشجار التقسيم لبناء قيم التفاعل مثل تلك القيم في هذا التحليل» فإن 
مُخْرجٌ نموذج الانحدار لا يمكن قراءته بالطريقة البسيطة نفسها باعتباره نموذجا 
تقليدياً. وبعبارات بسيطة» إن «المتغيرات» التي تم تأويلها بشكل عام, باعتبارها 
قياسات لقوى بارزة اجتماعياء لم تعد تقوم «بالتمثيل» (2001 465016). ولا يمكننا 
القول «بارتباط 10/ في الدخل ب 2/ من الارتفاع في احتمال الحصول على التأمين». 
نستطيع القول - عوضا عن ذلك - بربط عضوية في مجموعة ماء المحددة بتوحيد 
خاص للخصائصء بارتفاع في احتمال الحصول على التأمين؟ أي أننا نسمح للبنية 
الاجتماعية بجمع الناس بطرق معقدة ضمن مجموعات تشهد نتائج متباية. 

ثانياً: في النموذج 7» حيث ضمّنا متغيرات ورقة» إلى جانب مكونات تولّدت 
منها الأوراق» فإن تفسير المُعاملات (00611016015). إما على مستوى الأوراق أو 
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التأثيرات الرئيسة» يطرح تحد؛ بل لا يمكننا استخدام الطرق بشكل عام لتفسير قيم 
التفاعل (انظر مثلكٌ أوتتتنا1 له لجدعء13 :2006 001062 لصة عامقا تمطصسوعى 


3 مثلاء لندرس تفسير المعامل ,ث] في المعادلة التالية التي تميز النموذج 7: 





12 رٍ 
تتواكه ور + مسلئها ور + عامعاط ور8 + عنورمعنة و8 + 806 ث2 +0202 + 0 - 8 | 0 
13 


ع + 82 + 6[ + عمم دع 0 ورم خصمء عا رمء 1211 87 + 


تمثل ,ف تأثير كون الفرد في مجموعة 2, (والمترابطة بكون الفرد في مجموعة 1) 
في احتمال الحصول على تأمية ا ومع ذلك» تحدد هذه المجموعة بعلاقتها 
بالمجموعة 1 على مستوى العرق (أسود. ولاتيني» وأميركي الأصلء مقابل أبيض» 
وآسيوي. وآخر) . إنه الفرق العرقي بين أولئك الذين يصل يصل دَخلهم إلى 585,000 على 
0 دمع ذلك» فإن ا العرقية الخري تدخل ١‏ في التحليل باعتبارها 
ا ل ان بد برضي 0000 
في التأمين الصحي للتباين العرقي بين أصحاب الدخل المرتفع. يعد صافٍ من 
الدخل والعرق. وكي نكون واضحين. إن إيجاد معنى لهذا أمر معقد. ويعد تباين 
المجموعة الأبسطء. فى هذه الحالة الخاصة, بما أن المجموعة 1» والمجموعة 2 
تشكلان انقساماً واحداً بعيداً عن بعضهما بعضاً. ومن ناحية أخرى. تشكل المجموعة 
1» والمجموعة 10 تقسيمات منفصلة» وتتباين من حيث الدخلء والمواطنة» والعرق/ 

ويطرح التأويل تحد بسبب ضم كل من افتراضات الورقة ومكوناتها في النموذج 
نفسه. وإن اختيار واحد أو المجموعة الأخرى من هذه المتغيرات ييسر التأويل بشكل 
كبير. ومن أجل تعظيم التنبؤ - مع ذلك - تبقى عملية ضضم ككل المعلومات في هذه 


(3) تعد المجموعة 1» المجموعة المرجعية؛ فهي لا تظهر - إذن - في المعادلة. وتعد * القوة الموجهة 
لمتغيرات «المكون» المتبقية؛ و2 القوة الموجهة لمتغيرات «الضبط» الإضافية. (المترجم) 
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خلاصة 

نحن لا نعيش فى ما يسميه أندرو أبوت (45601 /420768) «حقيقة خطية 
عامة»؛ وإنما تولّد التتائج من خلال التفاعل المعقد لعمليات اجتماعية التي تعد 
المتغيرات - عادة - بالنسبة إليهاء مجرد اختزال مريح؛ بل إن طريقتنا المعيارية في 
ترميز تفاعلاتنا بين المتغيرات ليست كافية لضبط تعقيد كيفية تفاعل الخصائص في 
العالم. وتتلخص النماذج في نماذج الانحدارء التي تساعدنا بدقة عبر التبسيط التي 
تفرضه على العالم» مشيرة إلى متوسط العلاقات ذات الأهمية الكبرى. 


في هذا القسم - إلى مدى قدرة أدوات التنقيب في البيانات مثل أشجار التقسيمء 
السماح لنا بأداء هذا. ويمكن لأشجار التقسيم بخاصة.؛ أن تكشف عن كيفية تفاعل 
المتغيرات - ويسمى متغير في شجرة التقسيم بعد هذه الجودة الدقيقة: «مربع كاي» 
للكشف عن التفاعل التلقائي ((011411©). علاوة على ذلكء. إن الرفع من قدرة 
الكشف عن التفاعل» يمكن أن يساعدنا في تحسين القدرة التنبؤية - ومع ذلكء كثيراً 
ما تتفوق أشجار التقسيم على الانحدار اللوجيستي في مهام التصنيف. وقد بينا هنا أن 
استخدام قدر صغير من قوة الكشف عن التفاعل لأشجار التقسيم» يمكن أن تحسن 
أداء نماذج الانحدار على مستوى التنبؤ. 

ويمكن استخدام طرق التنقيب في البيانات في إنتاج تحو لات متغير جديد - 
عملية توزيع مثالي للخانات وإنتاج قيم تفاعل معقد. وفي بعض الأحيان» يمكن 
النظر إلى هذا باعتباره يجعل مجموعة متغيرنا أو سمتنا أكثر تعقيداً. وبعد ذلك ستنتقل 
إلى مجموعة تقنيات من أجل تقليص تعقيد مجموعة سمتناء مع الحفاظ - في الوقت 
نفسه - على البنية العامة للبيانات: طرق استخراج متغير. 
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الفصل الثامن 


استخراج المتغيرات 
تحليل المكون الرئيسي 


عندما تكون لدينا بيانات ذات بعد عاليء أي بيانات واسعة جداً (خصائص أو 
متنبئات كثيرة)» نريد أخيانا إيجاد طرق لتقليص بُعديتها (101106211058114). وقد 
سبق لنا مناقشة طرق انتقاء السمة مثل الانحدار التدريجى (556551002عظ1 5]61156). 
واللاسو (3550.آ)» وانحدار معامل تضخم التباين (9/15). وتعد هذه الطرق خخيارات 
- لا محالة - عندما نريد تخفيض أبعاد متغيرات المتنبئ على مستوى علاقتها بنتيجة 
ما. كما تعد أدوات انتقاء السمة» طرقاً «مراقبة» برمتهاء مادام هناك بُعد محدد من 
البيانات (النتيجة» أو الهدف» أو المتغير التابع) يتمتع بامتيازء وأننا ننتقي متغيرات 
مهمة بالنسبة إلى كيفية علاقتها بهذا المتغير المتمتع بامتياز. 

ولكن لا نملك دائماً متغيراً نهتم به بشكل خاص. وأحياناًء لدينا ببساطة كتلة من 
البيانات» ونريد من خلالها تمييز أنماط فى هذه البيانات. ومن الممكن اختصار جزءٍ 
لا يستهان به لما يُعد مهماً في مجموعة كبيرة من المتغيرات» والتعبير عنه بلباقة 
وببساطة بواسطة حفنة رن نر ملخصة. ومن أجل هذا النوع من الحالة بالذات 
الذي طُورت في إطاره هذه التقنيات العتيقة من تحليل المكوّن الرئيسي» وقريبه 
الوثيق الصلة به - تحليل العامل (71219/515 1"20101) . 


لندرس ثلاث متغيرات فى مجموعة بيانات على مستوى انتخابات المحافظات 
لعام 2012: 
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ل متوسط الدخل. 

© ونسبة السكان الذين يمتلكون شهادة جامعية أو شهادة أعلى. 

© ونسبة القوة العاملة فى الوظائف المهنية» والإدارية. 

ولا غرو أننا نجد ترابط هذه التصورات الثلاثة فيما بينهاء وبالنتيجة» إن معظم 
الناس في الوظائف المهنية أو الإدارية» هم خريجو الكلية» كما يميل كُل من خريجي 
الكلية وأولئك الذين يشغلون تلك الوظائف إلى أن تكون لديهم رواتب أعلى من 
المتوسط. ولفحص ترابطاتهم. نستطيع إنتاج مصفوفة ارتباط 008اء00) 
(2131 (الجدول رقم 18) ورسم بياني للتشتت (10م1ه]503) ثلاثية الأبعاد 


(الشكل رقم 1.8)» بحيث يعد هذا الأخير إذن من غامب. 


الجدول رقم 1.8: مصفوفة الارتباط. 


متوسط الدخل /التعليم العالي / مهني/ إداري 


متوسط الدخل 1 0 5 
1 التعليم العالى 06)0) 1 ب 
7 مهني/ إداري 0555 0,8 1 


يقدم هذا تأكيداً بخصوص ترابط هذه المقاييس على مستوى المحافظة: بما أنها 
تعد جميعها طرقا تشير إلى الثراء النسبي لمحافظة ما. يستطيع المرء الآن تقليص 
الأبعاد - ببساطة - من خلال استعمال إحدى هذه الخصائص. وافتراض أنها مناسبة 
في التعبير عن مفهوم الثراء. ولكن يجب الأخذ بعين الاعتبار أن المتغيرات غير 
مترابطة بشكل كامل. ومن الواضح أنها تعبر عن أشياء مماثلة» ولكن غير متطابقة 
حول المحافظات. وفي المقابل» نستطيع إنتاج خاصية رابعة» تعبر عن معظم التباين 
في هذه المتغيرات الثلاث» منجزة - بالضبط - القدر نفسه من التقليص البعدي, 
ولكن من خلال سحب المعلومات من المقاييس الثلاثة جميعها. 

ونقوم بهذاء من خلال إيجاد المكوّن الرئيسي الأول لهذه المتغيرات الثلاث. 
ولكن. ماذا يعني هذا بالضبط؟ لندرس مصفوفة الارتباط» كما وردت في الجدول 


2ظ]1 








8 ؛فهى الشكل المقعد لمصفوفة تباين التغاير 11311370 00013113266 -1/0113206). 
التى تصف الترابظات بين المتغيرات بظريقة لاتجد حلا لشاينات المتعيزات أنفسها. 


ومن أصل أي مجموعة متغيرات؛ يمكن للمرء أن يشتق مصفوفة تباين التغاير 
لبعدية م»امء حيث إن 7 تمثل عدد المتغيرات قيد الدراسة. ويمكن للمرء أن يحدد 
لهذه المصفوفة» مجموعة من م متجهات خاصة ل ( تحديدأء تعرف بالمتجهات 
الذاتية (1015ع2)8186276 التى تعيد نفسها مرات عديدة» تعرف بقيمة ذاتية 
(عنا[ه7تمعع818). عندما 00 مصفوفة التغاير. وتمثل هذه المتجهات خطوطاً 
مستقيمة» تصف التباين على نحو أكثر فاعلية في البيانات عندما يتم إسقاطها عبر 
سحابة البيانات ذات البعد-2. 

لدى كَل انجاه ذاتي قيمته الذاتية» تخبرنا الأحجام النسبية بالأهمية النسبية لكل 
متجهة من المتجهات الذاتية على مستوى وصف تباين البيانات؛ أي إن المتجهة 
الذاتية ذات القيمة الأكبر» تصف الحصة الأكبر للتباين في البيانات. كما تصف 
المتجهة الذاتية ذات القيمة الذاتية الموالية الأكبر» الحصة الأكبر للتباين المتبقى بعد 
ما تمت إزالة التباين الذي وصف من قبل المتجهة الذاتية الأولى؛ وهكذا. ْ 

تجدر الإشارة إلى أن هذا يعني أن كُلَ المتجهات الذاتية موجودة في الزاوية 
القائمة (عاعتتكى غطع1) لبعضها بعضاً؛ مما يعني عدم ارتباطها مع (متعامدة مع 
0 011080281) بعضها بعضاً. وإن ما يطلعوننا عليه» هو أمر مهم للغاية؛؟ بحيث إذا 
أخذنا - مثلاً - رسم بياني للتشتت (502]675101) الثلاثي الأيعاد في الشكل رقم 
8» فسنستطيع إدارة سحابة البيانات حول نقطتها الوسطى (0621:010) (النقطة 
الوسطى). إذ سيوجد خط من الخطوط التي تقلص المسافات بينها وبين البيانات 
نفسها على امتداد محور *. 

وإن المتجهة التى وصفت هذا الخطء ستكون المتجهة الذاتية ذات أكبر قيمة 
واج وس ل موري لا و2» المتجهتين الأخريين. وبالنسبة إلى هذه السحابة من 
سحابات البيانات ثلاثية الأبعاده سيكون محور * المكوّن الرئيسي الأول. أما 
المحوران لا و2. فسيكونان المكوّنين الرئيسيين الثاني والثالث. 
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وعندما ننجز تحليل المكون الرئتيسى لمتغيراتنا الثلاثة مستخدمين «العغامب)؛ 
يكون بإفكانتا > بصرياً - مراقية العلاقات بين البياتات» والمتغيرات» والمكوّنات 
الرئيسة من خلال إنتاج رسوم بيانية ثنائية. وهذه ببساطة رسوم بيانية للتشتت ذات 
المكوّنات الرئيسة: المشكلة للمحاور (الشكل رقم 2.8). 





الشكل رقم 1.8: رسم بياني للتشتت الثلاثي الأبعاد من إنتاج «الغامب بروا. 


ويعد كُلَ من الرسمين البيانيين الأعلى والأوسط؛ مكونا 1 - المكوّن الرئيس 
الأول - باعتباره المحور *. وإن مسألة سحابة البيانات منتشرة أفقياً بشكل واضح. 
تبين معظم التباين في البيانات على طول هذا البعذ - 79.3 / منهاء تحديدا (الجدول 
رقم 2.8). كما نستطيع أيضاً استكشاف أن التباين العموديء يعد أكثر وضوحاً بعض 
الشيء في الرسم البياني أعلى اليسار. وهذا راجع إلى كون البعد العمودي هناء هو 
المكوّن الرئيس الثاني. الذي يصف التباين - في حدّ ذاته - أكثر مما يقوم به المكوّن 
الركمن الفالث. 
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الشكل رقم 2.8: الرسم البياني الثنائي للمكونات الرئيسة (الغامب برو). 


الحذول رقم 28 المكوّنات»: والقيم الذاتية. والتحميالةات. 


القيمة وصف متوسطا /التعليم ‏ /مهتني/ 
الذاتية التباين الدخل العالى إداري 


المكوّن الأول 
7 75 7937 085 093 089 

(اعم) 

المكون الثان 
زوين 15 5ن 17نب 017 

(2عم) 

المكون الثالث 
قوق هام" 0:13 034 0,26 

(03م) 


]05 














الجدول رقم 8 انحدار حصة أوباما من الأصوات حول المكوّنات الرئيسة. 


متوسط الدخل 
/ التعليم العالي 
/ الوظيفي/ الإداري 
المكوّن الأول 561 
المكوّن الثاني 260:2 
المكوّن الثالث 7263 


الاعتراض 
جذر متوسط المربعات 
(8115]) 
]1 


.زم 


النموذج 1 النموذج 2 


(0.029) 0.225- م 


1.148 )0.052( 


(0.061) 0.728- دالت لها 


204 4602 
24 1.69 
034 148 
036 .17 


النموذج 3 


1.855 )0.159( 
-1.159 )0.375( 
-11.116 )0.558( 

35.04 
]1.69 
. 18 


.17 


إن النقاط الرمادية الغامضة في الشكل رقم 2.8» تمثل الحالات الفردية» ويمكننا 
إدراك أن عملية إدارة سحابة النقطة بحيث يمتد بعدها ذو التباين الأكبر على طول 
المحور الذي يحدده المكوّن الرئيس الأول. وتبين الأسهم كيفية ارتباط كل من 
المتغيرات التي تم قياسهاء بالمكوّنات الرئيسة» كما يمكن إدراك أن كُلَ المتغيرات 
مترابطة ارتباطاً وثيقاً بالمكوّن الرئيسي الأول. وإن الأعداد التي تدعى تحميلات 
المعامل» تطلعنا على مدى ارتباط كُل متغير من متغيرات المساهمء بكل مكوّن من 
المكوّنات الرئيسية. ولاحظ أن كَل الارتباطات القائمة بين المتغيرات والمكوّن 
الرئيسي الأول» أعلى من أي ارتباط من ارتباطات ثنائية المتغير 8108518]6) 
(0056181025) بين المتغيرات التي شاهدناها في الجدول رقم 8. ويقدم المكون 
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الرئيس الأول إذن» ملخصاً جيداً لما تشترك فيه.هذه القياسات الثلاثة» من دون أن 
تفضل أي متغير على آخر. 


وسيستخدم المكوّن الرئيسي الأول بمثابة طريقة ممتازة في تقليص التعقيد 
التحليلي؛ باعتباره قياساً ملخصاً. ويمكن بيان ذلك من خلال العمل على انحدار 
نسبة التصويت لصالح أوباماء أولأعلى مستوى المتغيرات المركبة الثلاثة (النموذج 
1 في الجدول رقم 3.8)» ثم - ببساطة - على مستوى المركب الرئيسي الأول 
(النموذج 2). وبعد ذلك» نضيف المكونين الرتيسيين (النموذج 3). وتم تقسيم 
متوسط الدخل على 1,000 بغية تسهيل عملية التأويل. 


لاحظ إن لدى المكوّن الرئيسي علاقة إيجابية قوية» على الرغم من أن لدى 
المتغيرين المستقلين ارتباطات جزئية مع النتيجة (حصة أوباما من الأصوات) 
السلبية. وهذا يبين جدوى المكوّنات الرئيسة في التخلص من الصعوبات التأويلية 
التي ولدتها مسألة إدراج المتغيرات المترابطة للمتنبئ في النموذج. ولدى كُل 
المتغيرات على حدة, علاقة إيجابية ثنائية المتغير مع حصة أوباما من الأصوات» 
ولكن تبقى العلاقة الأقوى فى حالة المتغير الذي يقيس نسبة السكان البالغين 
الحاصلين على شواهد عليا. ومن ثم؛ عندما نبقي على نسبة السكّان الحاصلين على 
شهادة جامعية ثابتة» فإن تأثيرات المتغيرين الأخريين تصبح سلبية. وفي هذا النموذج» 
نحتاج إلى تحديد - بحذر - مسألة أن العلاقة بين متوسط الدخل وحصة الأصوات 
مثلًء هي سلبية فقط بعد ضبط كثافة خريجي الكلية. وإذا ما كنا - مع ذلك - نؤول 
كُلٌ متغير باعتباره عكساً للثراء الرئيسيء فإننا قد نسيء وقد لا نسيء تأويل الدليل 
على ألةذليلاً ممزوجاً, وإن عملية طن التعلومة المشتركة فى مكون ركيسى ويد 
فى بنا] لن التدرع عاك دان ضلذفة اك إبسامة وبتتاطة دوعن المظاه مر مظاهد 
التراية الاحناعة ورخصة اانا من الأصوات. 


وفي الجدول رقم 23.8 نلاحظ أن عملية الانتقال من النموذج 1 إلى النموذج 2 
- عندما نتنبأ بأصوات أوباما - تقلص 17 بنسبة 77 /. ولكن كيف يمكن حدوث 
ذلك إذا كان هذا المكوّن نفسه يصف 78 / من التباين بين المتنبئات الثلاثة؟ 
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أولا: جواب ذلك أن المكوّن الرئيس لم يُحدّد استناداً إلى متغير النتيجة» ولكن 
يصف فقط علاقات بين المتنبتات الثلاثة. 

انياً: لا ارتباط أي من المتنبئات بشكل كبير مع النتيجة؛ فنسب الارتباطات 
القائمة بين حصة أوباما من الأصوات هى كالتالى: أما شهادات الكلية» فهى: -1 
8 . أما متوسط الدخلء فهو 102 0 وأما الوظائف المهنية أو الإدارية» فهي : 
7 . -. وفي الحقيقة. » إن حصة أوباما من الأصوات أكثر ارتباطاً للغاية مع المكوّن 
الرئيسي الثالث (0.329- - ©) من الأول (19290.-05) أو مع أي من المتنبئات 
بمفردها. وبتعبير مبسّطء إن الثراء مرتبط إيجاباً مع حصة أوباما من الأصوات». ولكن 
طخا اح تن اورقا الكو ليطي الي قم الجارم بوطةة كرد 
قيد الدراسة. لم يتم بمعظم ماي يشت ركون فيه. 

وَآخَيراً: لاحظط أن مقاييس التناسب (جذر متوسط المربعات» 2117 وآ المعدلة). 
ل 1 و3. وهذا راجع إلى كون لكوتم الرئيسة الثلاثة 
جميعهاء املك ا ل ا ل 

ولبيان خاصية النموذج المبسّط - بشكل حقيقي - تحليل المكون الرئيسيء تدعو 
الحاجة إلى البدء بمزيد من المتغيرات. ونجمع 22 متنبئاً لحصة أوباما من الأصوات» 
بار الم او ل 0 
لم و ا تَحكُم تحليل المكوّن الر ئيسي للستاتا (هلها8).. 

كما يمكننا فحص القيمة المنخفضة للقيم الذاتية من خلال التوسل بالرسم 
البياني ()210 عع501) بعد التحليل(الشكل رقم 3.8). ونستطيع رؤية انحدار العدد 
بشكل سريع في البداية» ويستوي عند حوالي خمسة. ويطلعني هذا على أن المكوّنات 
ذلك» ومن أجل أخذ الحيطة» سندرج مكونين آخرين - ليصبح لدينا سبعة مكونات 
إجمالة. 
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إن انحدار حصة أوباما من الأصوات على مستوى هذه المكوّنات السبعة» تنتج 
7 من 0.4338 التي تمثل حوالي 75/ من التباين الأولي الموضح في النموذج 
بأكمله. وإن كان ذلك بقلة قليلة من المتغيرات . ولأن كل المكوّنات الرئيسة» هي في 
مستوى واحد (أي إنها عادة موزعة بمتوسط 0 وانحراف معياري 1)» فسيكون 
بالإمكاة مقارنة ععاملاك الأتحدازدبشكل مباشر.. وف الجدول رقم 25.8 يمكن 
ملاحظة أن لدى المركبات 1» و2: و3» و5 علاقات إيجابية مع حصة أوباما من 
الأصوات. وأن مركبي 1» و2 هي أقوى المركبات. وترتبط هذه المركبات إيجاباً 
بالكثافة السكانية» وبنسبة سكّان محافظة ما سوداء (على التوالي)» كما ترتبط سلباً 
بمتغيرات من قبيل نسبة كبار السنّء ونسبة القاصرين في السكان (على التوالي). 

ومن الأشياء المفيدة بشأن تحليل المكوّن الرئيسي» تتمثل في حقيقة أن 
المكونات ذاتها غير مترابطة. وسبب هذه العمودية. تصبح *آ لانحدار ما على 
مستوى كَل المكوّنات» مجموع قيم 0117 انطلاقاً من الانحدارات على مستوى كل 
مركب من المركبات على نحو فردي. وكل مركب». يصف قسم فريد من التباين في 
متغير النتيجة» على الرغم من أن النتيجة لم تكن مدرجة (في الواقع) داخل تحليل 
المكوّن الرئيسي نفسه. ويخبرنا الجدول رقم 5.8 بأن المكوّن 2» يصف أكثر من 
1 / من التباين في حصة أوباما من الأصوات بمفردهاء وأن أجزاء كبيرة من التباين» 
وصفت أيضاً من قبل المكوّنات 3» و6» و7. وإن العديد من المكوّنات غير مترابطة 
بشكل أساسي بمتغير النتيجة» وهو أمر متوقع بالنظر إلى أن النتيجة لم تستخدم في 
توليد المكونات. 


الجدول رقم 4.8: نتائج تحليل مكون أساسي. 
المكون القيمة الذاتية نسبة التباين تباين تراكمي 


)20033 023 232536 1 
)69 02015 015 2 
057 ))28 215 3 
0627 000 1.3 4 
)65 ))8 ]05 5 
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009 024 0027 6 
0010 0241 001 7 
)208 0027 0533 8 
051 0023 0/73 9 
051 )0)29 0625 10 
066 )00)25 04 11 
)26 ))20 04 12 
)222 006 0036 13 
)245 )2)14 0030 14 
027 0202 028 15 
)026 0202 026 16 
0028 0209 020 17 
)26 02207 07 15 
)0222 0006 014 19 
)2 5 ))03 0207 20 
)28 0003 007 21 
10 )0)02 004 22 


ملاحظة: مدخل التغيرات؛ 3.114 - 02 


ويفضي بنا هذاء إلى العائق الرئيس لتحليل المكوّن الرئيسي: تأويل المكوّنات 
الفردية ذاتها. وتصف المكوّنات أجزاء فريدة من المعارفيات المدرجة في كل 
المتغيرات - ولكنها غير مضمونة - فى سياق متعدد الأبعاد مثل هذاء إلى درجة أن 
معظم المتغيرات» أو أي من المتغيرات ستكون ذات تحميل عالي على مستوى 
إحدى المكونات. وفي هذه الحالة» يكون تحميل العديد من المتغيرات متوسطا فقط 
على مستوى أي من المكونات» ولكن تحميلها مماثل على مستوى اثنين أو ثلاثة. 
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ومن ثم» فإن تأويل (معنى )ا مكون ما عند أداء تحليل مكون رئيسي مع متغيرات 
عديدة؛ عادة ما يكون مباشرا. 


مخطط القيم الذاتية بغد تحليل مكون رئيسي 


الشكل رقم 3.8: رسم بياني يوضح قيماً ذاتية لمكونات من تحليل المكوّن الرئيس. 


وتتمثل النقطة الرئيسة فى أن الاستعمال الرئيسى لتحليل مكون رئيسى» هو 
تقلنص فى البعذية قانها حول تموذييا أكثر تفبير. ويمكن أن يأئن جا على حسيات 
تأويل يسير. إذا أردنا تقليض البعدية بالتزامن مع تحسين القابلية التأوبلية» فستكوت 
إحدى الاستراتيجيات الأفضل هو أداء تحليلات عامل؛ أو تحليل المكوّن الرئيسي 
على مستوى المجموعات الفرعية للمتغيرات» كما فعلنا مع تحليل المكون الرئيسي 
لمتوسط الدخل» وللتحصيل العلميء ونسبة الوظائف المهنية والإدارية التي تصدرت 
هذا القسم. كما يؤدي هذا إلى مزيد من المتغيرات الملخصة القابلة للتأويل التي يتم 
توليدها. ومع ذلك إذا تم استخدام مجموعات منفصلة لمتغيرات مترابطة ارتباطا 
نظرياً لتوليد عوامل منفصلة» فسترتبط - على الأرجح - هذه العوامل ذاتها. وبالنتيجة» 
لن تصف هذه المجموعات مكونات منفصلة للتباين في المتغير التابع» وأن ارتباطاتها 
نفسهاء ستحتاج إلى الفحص كجزء من تحليل عام. 
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ملخص 

في هذا القسمء ركزنا على الطريقة الأكثر شيوعاً من طرق استخراج المتغير - 
تحليل المكوّن الرئيسي. وهذه الطريقة ليست طريقة من طرق التنقيب في البيانات في 
جوهرهاء ولكنها تستخدم بشكل اعتيادي من قبل متخصصين في التنقيب في 
البيانات» لجعل مجموعات البيانات المعقدة أكثر قابلية للطّرق. وإنها لطريقة صارمة 
ودقيقة لتلخيص غالبية التباين المشترك بين مجموعة كبيرة من المتغيرات ذات عذد 
أصغر من المقاييس. لقد بينا هنا أنه فقط 7 مكونات رئيسية» هي القادرة على إنجاز 
حوالي ثلاثة أرباع و22 من المتغيرات المنفصلة التي اشتقت منها في تنبؤ حصة أوباما 
من الأصوات لعام 2012 على مستوى المحافظة. وهناك بالطبع» مقايضة للدقة من 
أجل التقتير - التي تعد أكثر أهمية - تنوقف على ما تبحث عنه من نموذجك. 

تحليل المكون المستقل 

إن تحليل المكون المستقل (2170515شى غمع02ملط00) غصملمءمع0م1) (هن1) 
- الذي تمّ في الأصل تصوره من قبل عالم الحاسوب بيار كومون 0702© 556ءذ2) 
(1994 - ينحدر من تحليل المكوّن الرئيسيء الذي يشبهه قليلاً. ويحرك الاختلافات 
بين التقنيتين» أنواع المشاكل التي تمّ تقديمها لها في البداية بغرض إيجاد حل لهاء 
والتي تناسبها بشكل أفضل. وربما تستخدم التقنيتان كلاهما باعتبارهما أداتان من 
أدوات تقليص البيانات أو التبسيط. لاستكشاف بنيات البيانات الرئيسة ضمن بيانات 


معقدة متعددة المتغيرات. 


وقد تستعمل التقنيتان كلاهما أيضاًء لحل مشكلة غير مختلطة (8صلء<ندصمن]) أي 
فرز الإشارات المستقلة المختلطة معاً في بيانات الترصد. ويمكن استخدام تحليل 
المكوّن المستقل في الحالة الثانية» ولكنها تستخدم بشكل أنسب بكثير في الحالة 
الأولى (تقليص البيانات) التي صممت من أجلها. كما يمكن استخدام تحليل 
المكوّن المستقل في النوع الأول من الحالة» ولكنه صمم للغاية الثانية (إشارات غير 
ممزوجة). وهو حالياً تقنيتها الرائدة. 
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عمه])< :100 


رئيسة 


الجدول رقم 5.8: نتائج تحليل | 


ون الر 


: 3 
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2 فى بيانات ان: : بات 2008 على مستوى المحافظة. 


» والانحدار» مستخدمين مكونات 


لفد صمم تحليل المكوّن المستقل باعتباره طريقة من طرق فصل المصدر 
الأعمى (212102م56 ع501156 81120)), الذي يعد «مشكلة حفل الكوكتيل»» حالتها 
الكلاسيكية. ودعنا نقل إن لدينا ثلاثة أشخاص يتحدثون في حفل كوكتيل» ونقوم 
باد ليم با ثلاث ميكروفونات موضوعة عشوائياً في الغرفة. كَ 
ميكرفون سيولّد تسجيلاً يُعد مزيجاً من محادثة المتحدثين الثلاثة» ونريد طريقة 
تفصل التسجيلات الثلاثء كي يتسنى لنا فصل - قدر الإمكان - صوت كُلْ فرد على 
حدة. وفي هذه الحالة يمكننا القيام بافتراض حاسم للاستقلال الإحصائي للموجات 
الصوتية المنبعثة من المتحدثين الثلاثة. إن الرفع من قوة هذا الاستقلال المفترض» 
يسمح لتحليل المكوّن المستقل أن ينجز بشكل رائع» لهذا النوع من مشكلة التصنيف. 

ويتميز تحليل المكوّن المستقل» إذنء عن تحليل المكوّن الرئيسي من خلال 
استخدام استقلال إحصائه - عوض عدم ارتباطيتة (1[200176121602655]) - باعتباره 
مبدأ موجهاً من أجل فصل البيانات إلى مكونات. ولكن كيف يختلف الاستقلال 
وعدم الارتباطية؟ إن الاستقلال في الأساس حالة أقوى بكثير؛ فلكي يكون متغيران 
غير مرتبطين» يقتضي ذلك فقط عدم توافرهما على علاقة خطية (1.12681آ) فيما 
بينهما. ومع ذلك. قد تكون لديهماعلاقة لاخطية مميزة. إن التعامد (/01150801211) 
أو عدم الارتباط» حالة ضرورية ولكن غير كافية بالنسبة إلى الاستقلال. 


والآن إذا كان متغيران غير مرتبطين» وموزعين بشكل عاديء فسيكونان - أصلاً 
- مستقلين. وبما أن تحليل المكوّن الرئيسي» يستخرج مكونات غوسية (081055180)؛ 
فإن الفرق بين عدم الارتباطية والاستقلال - بالنسبة إلى تحليل المكوّن الرئيسي - 
هو أمر خلافي. ومع ذلكء يفترض تحليل المكوّن المستقل. تكون البنية الرئيسة 
للبيانات من عناصر لا غوسية (0081055182)-8108). وقد تم وصف تحليل المكوؤن 
المستقل - في واقع الأمر - باعتباره تحليل عامل لا غوسي. 


هذه نقطة مهمة. وجب التركيز عليها بالنسبة إلى مستخدمي تحليل المكون 
المستقل. ويجب استخدام كُل الطرق في حالات تكون فيها مناسبة للمهمة القائمق 
وبالنسبة إلى كَل جزء من الحالة إذا كانت الافتراضات التى توجه المنهجية تبدو معقولة 
بالنفية ]إلى صالة الحالم السقيق الذي دن رقردد تطايلف إن لذي ادزام ليل 
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المكوّن المستقل معنىء إذا وفققط إذا كنا نظن ان المكوّنات الرئيسة للبيانات مستمرة» 
ولكن غير موزعة - فى الحقيقة - بشكل عادي إذا كانت لا غوسية بالحد الأقصى. 
و عملياً ترتبط اللا م (/010 02115512 -710) بالتفر طح (0515تلك1) - «بلوغ 
ذروة» توزيع المكونات قيد الدراسة. وإن تحليل المكون المستقل» تستخرج المكونات 
التي بلغت الذروة بشكل كبير (©1اننامامامع.آ)' أو لم تبلغها للغاية (عناتدهان)51). 
ولهذاء إذاكان للمرء داع للاعتقاد في أن العناصر الرئيسة المؤسسة للبيانات قيد الدراسة» 
هي عناصر مبنية بواسطة عناصر أساسية؛ إما مركّزة بشكل للغاية حول المتوسط 
(مه 31 وإما غير مركزة بخاصة. (أو على الأرجح. خليط من «البالكورتوز». 
و«الليبتوكورتيك»)): فسيكون هذه الحالة تحليل المكون المستقل مثاليا. وفى المقابل» 
إذا كان شخص ما مقتنعاً بأن العناصر الأساسية موزعة بشكل عادي. د اواج 
تجنب تحليل المكون المستقل لصالح تحليل المكون الرئيسي أو تحليل العامل. 
إن تحليل المكوّن المستقل يعمل تبعاً للخطوات التالية: 


1. تحديد عدد المكوّنات المستقلة الواجب استخراجها: بالتوسل بتحليل المكوّن 
المستقل. يستوجب على الباحث تحديد عناصر أو أبعاد أساسية عديدة يري 
أنها مؤسسة للبيانات القائمة. وإن هذا التدخل من قبل الباحثء هو أكبر أهمية 
من تحليل المكوّن الرئيسى أو تحليل العامل. وفى هذه الحالات الأخيرة: تولّد 
البرامج - عادة - عوامل أو مكونات عديدة» بقدر تعدد المتغيرات المستعملة 
في التحليل» ويقرر الباحث بعد العملية (بعد تحليل رسم بياني ما باستخدام 
معايير أخرى) العدد الذي يتم الاحتفاظ به. إن تحليل المكوّن المستقلء 
بالمقابل» ميستخرج فقط عدد المكونات التي يشترطها الباحث سلفا. وفي 
حالات فصل مصدر أعمىء يتم - عادة - تَعَرّْفٌ مصادر الإشارة المستقلة» ومن 
ثم فإن هذه المحدودية لا تطرح مشكلة. ولكن في حالات العلوم الإنسانية» 
حيث يكون - عادة - عدد العناصر أو المكوّنات الرئيسة غير معروف. يكون 
الأمر أكثر صعوبة. وإلى حدّ علمي. فإن تقابلات الرسم البياني أو نسبة التباين 
الموضح. لم يتم تطويرها من أجل تحليل المكوّن المستقل. 


2. تبييض البيانات: يستمر البرنامج في إنتاج مجموعة من المكونات غير المترابطة 
كما تم في تحليل المكون الرئيسي. 
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3. إيجاد دوران فك الارتباط (126607126108) للمكونات اللا غوسية بالحد 
الاقصى. 
يمكن تحديد اللا عيارية (17101120110211137)من خلال إحدى الطريقتين التاليتين: 
. الطريقة الأولى» فتجد المكوّنات التي يتنوع تفرطحها!؟ (110515؟1) (إيجاباً 
« الطريقة الثانية» فتستخدم كمية إحصائية تدعى «الأنتروبي السلبي» 
(/إم71680150)؛ وتعني الفرق في الأنتروبية) (لإمهناه8) المرتبطة بما 
يمكن توقعه في توزيع عادي ذي تباين مماثل. 
مثال تحليل المكون المستقل باستخدام 1 
لقد تم دمج تحليل المكوّن المستقل في أي برنامج من برامج البرمجيات 
التجارية الرئيسة» مثل «الستاتا»» والحزمة الإحصائية للعلوم الاجتماعية» ونظام 
التحليل الإحصائي (ومع ذلك» يمكن للمرء برمجة تحليل المكون الرئيسي بالنسبة 
إلى «الستاتا» أو نظام التحليل الإحصائيء بالتوسل بقدر كافٍ من القطع الرياضية). 
ومع ذلك فقد تمت كتابة بعض البرامج التي تنجز تحليل المكوّن المستقل بالنسبة 
إلى 2 (وبالنسبة إلى 38411438 مختبر المصفوفة). وهنا نبين كيفية تنفيذ تحليل 
المكوّن المستقل باستخدام حزمة 18 التي تدعى تحليل المكوّن المستقل السريع 
رخن ])وة) (2012 نإء1م 11 00ة رممنادع11] متصتطءة]8). 
أما بخصوص تحليل المكوّن الرئيسي» فنستخدم بيانات انتخابات 2012 على 
بتحميل البرنامج في ذاكرة التشغيل (/(1/161201 1717/0118 : 
(” نت ]اود '') 5عع12ع3م.211ا15 


(”خن) اوه" ) 15 1ط 1آ 


)4( التفرطح (10515ناك1) تعني الحد من ذروة منحني التردد التوزيعي (المراجع). 


)5( ورد مصطلح أنتروبي (/1505) كثيراً في الكتاب وهو يعني الانخفاض التدريجي في الاضطرابء أو 
انعدام النظام أو إمكانية التنبؤ. وبصورة أدقء في نظرية المعلومات يعتبر الأنتروبي مقياس لوغاريثمي لمعدل 
نقل المعلومة في رسالة أو لغة معينة (المراجع). 
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المستقلة منهاء ونخزنها فى مصفوفة 7. وهنا ننتقى 21 متغيراً منفصلاء ونقيس 
خصائص ديموغرافية والمستوى الاقتصادي والاجتماعى للمحافظات» ونشكلها في 
مصفوفة 21<3114. 


عالط كاعم را650:7ع28 ,1834ع28 ,18أاع38 ركطعلمممط1!) لصااء كير 
رع131متتعصطنا ,كطللء ,كطلء متعطعتطلء ,مولعم بكاعداطمعم ,تقائمضعم 


77210]10 ,531165670 ,اعم 0190162 ,25ع1220 ,07_0م61م ,لاع مطاعمنا 


(ع012ع22 ,لتقام ع0 ,عحاقطط 


ا م 5 2 
إن برنامج تحليل المكوّن المستقل السريع» ينفذ من خلال الرمز التالي: 
17 ,«1086051» > تنظ ,«اعل1لهكدم» - ملتا.ولة ,ذ ,2) خن]لادة1->لاو12 - 


(11101 د عو0ط2ء؟7 , 1 0.0000 - 01 ,200 د لةحط رظن 1 1) 


ولنتعقب بالضبطء ما نحن بصدد القيام به هنا. إننا بصدد توليد شيء يدعى 
«16081» من خلال إنجاز دالة تحليل المكون المستقل السريع على مستوى الشيء 16 
مصغوفتنا المكوّنة من 21 متغيراً. أما الخيار الموالى» فيخبرنا بتحليل المكوّن 
المسغل السريع لتوليد خسنة مكونات: تسعقلة (بْحيث يكو العدد المختان:- :في 
هذه الحالة - عشوائياً بما أننا لا تستند إلى معرفة قبلية أو إلى.نظرية ما): وبعد ذلك 
انتقينا «أ»581811» - ملا218.6 مما يعني أن البرنامجح» ميستخرج المكونات في أن 
واحد. وفي المقابلء إذا ما حددنا «الانكماش»؛ ستستخرج المكوّنات فرادى. وليس 
ثمة توجيه كبير بشأن هذا القرار» وإذا ما كان المرء منشغلاً فقط بمحاولة استخراج 
المكوّنات المستقلة من البيانات» فلن يكون الأمر مهما كثيرا؛ فالمكوّنات المنتقاة فى 
تحليلناء بالاستخراج الموازي أو التسلسلي» غير مترابطة على حدّ سواء» ومترابطة 
باعتدال بعضها ببعض. 

ثم» هناك سلسلة من الخيارات المترابطة بسرعة التقارب. وإن تحليل المكوّن 
المستقل هو خوارزمية تكرارية» تبحث عن مكونات غير مترابطة لا غوسية بالحد 
الأقصى. ولكن هناك طريقتين مختلفتين لتعظيم اللا غوسية» المحددة عبر الخيار 
الممتع (1100م0 طناط). ويمكن انتقاء سواء دالة أساسية («م<«ه» - «نا) أو 
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خوارزمية جيب التمام القطعي (عمزوهن) عنتاوطععم::11) («طومعع0ط[» - صنظط). 
وكلاهما يعمل علا بحسب مطوري تحليل المكون الرئيسي» ولكن «اومءع1-08آ1» 
في تجربتنا أسرع قليلاً. وبعد ذلك؛ نحتاج إلى اختيار ما إن كان يستوجب على سطور 
مصفوفة البيانات» التطبيع قبل التحليل. وإن انتقاء 211218 يفضي إلى التقاء أسرع 
قليلاً. ويراقب الخياران المواليان بشكل أكثر مباشرة» عدد التكرارات التى تحدث 
قبل أن يُسمم للبرنامج أن يستفر على نتاتجنما. ١‏ 

أولاً: تناز الجن الأقضى فين عد التكزاراض لاتجازهاء 


ثانياً: نختار التسامح, الذي يعد كمية إحصائية من التناسبية. وعموماء إن الالتقاء 
سريع - إلى حد ما - مستخدمين تحليل المكوّن المستقل السريع» ومن ثم. فإننا 
ننصح بتحديد «الماكسيت» (918:41) عالياً نسبياً. ويجب أن ينظر إليه باعتباره ضمانة 
أكثر من أي شيء آخر. وفي المقابل» على المرء مراقبة جودة الالتقاء مع مَعْلم 
التسامح. وستقود القيم الأعلى إلى التقاء أسرع» ولكن ستكون أقل موثوقية. ولهذاء 
ننصح بتحديد «التول» (101]) في مستوى منخفض. وفي بياناتناء على الرغم من تحديد 
«التول» لشىء ضئيل بشكل مطلق (مثل 0.000000000002 - 601). فإن الالتقاء 
يدت ل 32 تكرارا تفل ولو أن وجوه يحفيوعة تزانات أكدر اذ ترات مضل 
أكثر» يستغرق وقتاً أطول. وأخيراً - وكما هو الحال بالنسبة إلى العديد من تحكمات 
2 - هناك خيار الفيربوز (1/6:6056). وإن اختيار 1721715 سيسمح لك بمعرفة عدد 
التكرارات التي تحدث قبل الالتقاء وما هو التسامح المحدد في كُل خطوة. 


782505618102 ,00001 أعذمء ,2200 امه ,لقلة7 2082 سوم ر"ورة" ع ولط ,"لعللمعمم”" ‏ ور .ونه ,3 ,8408 1021-2351 
انه 
انان 

61 إم3680-2720 0غ .امنتممة 900228131 05150 73518 ع1 هم 
32 - 01 1 8282101 

3 - 0غ 2 ةع 

623101 3 201 - 3 

48 - 051 4 100ممه 

26225105 5 01 - 46 

٠-49‏ - 101 6 136109ع 

5.8196566-5 2 201 7 100غومع 

1.5027866-5 ه 01خ 8 105لهعع 

3.9115128-5 - 01خ 9 ناتليئنة 


الشكل رقم 4.8: مُخرج تحليل المكوّن المستقل في 12؛ موضحاً التقاء النموذج. 
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ونشغل التحكم؛ ونحصل على المخرج المبين في الشكل رقم 4.8. ويطلعنا هذا 
فقط على أننا نحصل على الالتقاء في تسع تكرارات» ولو يتسامح منخفض. وكما هو 
نموذجي مع 12. فإن المُخرج الآني غير مفيد. ولكن يمكن النظر إلى بناء الشيء الذي 
نولده (1©31) في الشكل رقم 5.8. 

ولاحظ أن للشىء عدد من المكوّنات (تظهر هنا باعتبارها (.عاء ,>1 ,)72 9) 
والأنسب بشكل مباشر هي أسطر تسمى 54: وأما .55.54: فتحتوي على ترجيحات 
لكُلَ متغير» تُستخرج منها العوامل» ولكن النظر إليها بشكل قابل للفهم» يقتضي 
تحويلها. 


(062155) ورنوم 





الشكل رقم 5.8: مُخرج تحليل المكوّن المستقل في 18 
موضحاً عناصر مخزنة فى الشىء 1621. 
إن الأسطر المبيئة في المخرج 18 في الشكل رقم 6.8 مرتبط بمتغيراتنا الأصلية؛ أي 
أعمذة» مترابطة بمكونات خمسة. كما أن المكوّنات المستقلة» مثل المكوّئات الرئيسة» 
مشكلة باعتبارها مزيجاً خطياً (أي مجموعاً مرجحاً. تحديداً) لهذه المتغيرات. ويعد 
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المتغير 1 للسطر هناء الخوارزمية الطبيعية للكثافة السكائية (وإذا ما قرأنا عبر السطر 
الأول من الشكل رقم 6.8: فسنجد فقط تحميلات سلبية). وأما المتغير 5 للسطرء فهو 
نسبة سكان المحافظة من البيض غير الإسبان. وإن القراءة عبر هذا السطر يفصح عن أن 
هذا المتغير مرتبط إيجابا بالكلء ما عدا المكون الثاني. ويمكن إنتاج مصفوفة الرسم 
البيائي للتشتت (الشكل رقم 7.8) التي ستبين استقلالية المكوّنات: 





الشكل رقم 6.8: تحميلاً المتغيرات (سطور) على مستوى المكوّنات (الأعمدة) من 
تحليل المكون المستقل (باستخدام تحليل المكون المستقل السريع لحزمة *1). 


والآنء يمكننا استخدام هذه المتغيرات باعتبارها متنبئات في انحدار ماء متنبثين 
حصة أوباما من الأصوات في محافظات معيئة (الجدول رقم 6.8). ويبدأ الانحدار 
في العمود المسمى (1) بالمكوّن المستقل الأول» وبعدها يضيف الباقي» الواحد تلو 
الآخر. ومن المهم التذكير بأن المتغير التابع لم يكن عضواً من مجموع المتغيرات 
التي استخرجت منها المكوّنات المستقلة» وبالتالي؛ فإن أي تباين في المتغير التابع 
الذي تم شرحه من خلال المكوّنات المستقلة» إما بسبب الصدفة العشوائية» أو بسبب 
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علاقته بالمتغيرات الآصلية في المجموعة. ومن المفيد أيضا التذكير بأن نموذج 
انحدار ماء الذي يستخدم هذه المجموعة الكاملة من المتنبئات (أي قبل القيام بتحليل 
المكوّن المستقل)؛ كان لديه 17 بنسبة 5855. 


0 2 4 5 





4.18 











3 ط١‏ ط: 3 





2 0 2 4 همه 


الشكل رقم 7.8: مصفوفة الرسم البياني لتشتت المكونات المستقلة (في 18). 
وتخزن القيم الحقيقية لكُل مكون في كُلَ حالة على خلة؛ في المكوّن 5. 
وستكون آيسر - نوعا ما - النظر في هذاء إذا حولنا 5 إلى سلسلة من متغيرات خمسة: 

!1215511:31141->1 مده 

[11:3114,2 13155 ->2متتزمن 

3114.3 :1+ 123155 -> 3 محم 

|1:3114,4! 2155ء->4متتروة 

|5 ,3114 :1+ 12155 ->5 متترومة 

الجدول رقم 6.8: انخدار حصة أوباما 
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من الأصوات على مستوى المكوّنات من تحليل المكوّن المستقل. 


(50 (4) (3) 22 01) 


المكون 1 ***0855.ؤذ- )2 ***5.085- *** 5,085 *** 085 ك5 ***5)085- 
(0.2496) (202.238 (2)0.238 (2)0.215 (2)0.214 


المكوّن 2 3 +4214 ««*4213 00 +4213 4213*000 
(0.238) (0.238) 2 (0215) 2 «0.214) 

المكوّن 3 0 : (0.238) 2 (0.215) 2 «0.214) 
0025 005 005 

المكرّن 4 5 5 ِ ***667 5667*005 
(0.215) 2 «0.214) 

المكرّن 5 ِِ 3 1 “1255 
(0.214) 

ثابت (0.2496) 2 «(0.238) (0.238) 2 (0.215) 2 «0.214) 
3041 3.3 303 3.3 2303 
1# 1177 1984 1984 .23446 3517 
4 1174 1979 1977 .3437 3507 

00> عع 


وتظهر بعض الأشياء مباشرة من التحليل 


ع 


أولاً: إن المجموعة الكاملة للمكونات المستقلة الخمسة تمتلك ما هو أكثر من 
نصف القوة التوضيحية لنموذج المتغير الأصلي. وهكذاء على الرغم من أننا أنجزنا 
تبسيطا كبيرا للبيانات» فإن ذلك تم على حساب تخفيض معتبر للقوة التنبؤية 
موجن 


انياً: إن مسألة أن المتغيرات غير مترابطة فيما بينهاء تم إظهارها مباشرة من 
خلال كون - كما هو الحال بالنسبة إلى تحليل المكوّن الرئيسى - معاملات الانحدار» 
قور طن إضال مكرتاتك ماف دوت الحقالف إذ رت فقا فد شيك ذلك 
ارتباطا كبيراً بين المتغيزات..ولكخ الاتحتار الخظى تت بطرينة الخال يمكنه فق 
تقديم تلميحات حول ما إذا كانت المكوّنات مترابطة أم غير ذلك» وليس ما إذا كانت 
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ثالناً: ثمة شىء غريب يحدث للأخطاء المغيارية فى هذا التحليل؛ فهى نفسها 
بالضبط بالنسبة إلى كُلَ المكوّنات (والاعتراض) داخل النماذج. وهي أيقا شاي 
عبر النماذج كلها. وهذا ربما راجع إلى أن المكوّنات لا غوسية بالحد الأقصى. 
وباعتبارها متغيرات غير طبيعية (التي تعد غير طبيعية بشكل متشابه)» فهي تخلط 
بالضبط محاولة حساب خطأ معياري. الذي يفترض المعيارية. وأخيراء إن المتغير 
الثابت, لا يتغير تماماً انطلاقاً من نموذج إلى آخر. وهي - في الواقع - متساوية مع 
متوسط المتغير التابع بالنسبة إلى البيانات جميعها. (نعم إن متوسط الأصوات بحسب 
المحافظات كانت 38.44/. وقد فاز أوباما بمهارة فى المحافظات الأكثر كثافة 
بتكائنة + وكبد المتحافكلاتذات كانه سكانة تايلك لكات متمركزون في عدد 
صغير نسبيا من المحافظات). وهذا راجع إلى كون البيانات قد تم تعييرها قبل 
استخراجنا للمكونات. وبالتالي» إن كُلَ المكوّنات لها متوسطات قريبة جداً من 
الصفر. وكون أن المتغير الثابت يبقى في متوسط السكان, فإن ذلك يعني أنه صحيح 
أصلا. 

خلاصة 


تستخدم طرق استخراج المتغير لتقليص عدد المتغيرات قبل مباشرة التحليل» 
عبر استكشاف عدد صغير من مكونات عوامل غير مترابطة» تلخص عددا أكبر من 
متغيرات مقاسة. وفى مقابل طرق تقليص البيانات التى تمت مناقشتها سابقاً (مثل 
الانحدار التدريجي), التي تنتقي المتنبئات الأكثر 00 بين قائمة أطول لمتنبئات 
المرشّح, تحاول طرق استخراج المتغير تلخيص جميع المتغيرات المتاحة. وبشكل 
أدق» يقوم استخراج المتغير بعملية تحليل مصفوفة التغاير التي تصف العلاقات بين 
المتغيرات المقاسة. إن تحليل المكوّن الرئيسي» وتحليل المكوّن المستقل كلاهماء 
يجار لأن لصن هون الشاير ذاتسعديات انظ همدي لل أومقر ناك قليلة: 

وهذه طرق غير خاضعة للرقابة والإشراف: إذ لا يشركون متغيراً تابعاًء بل 
يلخصون - عوضاً عن ذلك - العلاقات بين الخصائص. أو المتنبئات. أو المتغيرات 
المستقلة. ولسوء الحظء هناك مقايضة بين التبسيط والدقة. وقلما تفسر المكوّنات 
المستخرجة عموم التغاير المجسد في العدد الأكبر للمتغيرات المقاسة. علاوة على 
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ذلك» حتى عندما تلخص المكونات المستخرجة معظم التغاير بين المتنبئات» لا 
يترتب عن ذلك كون أن النموذج يستخدم تلك المكوّنات المستخرجة للتنبؤ بمتغير 
تابع»ء سيمنح بالضرورة تنبؤات جيدة. وفي الحقيقة» وجدنا مراراً وتكراراً حرفي 
الأمثلة المبينة أعلاه - أن المتغيرات الأصلية التي تم انّخاذها كمجموعة, كان أداؤها 
أفضل من حيث تنبؤ متغير تابع» من المكوّنات المستخرجة منها. ومع ذلك» تستعمل 
تقنيات كُل من تحليل المكوّن الرئيسي» وتحليل المكوّن المستقل؛ من قبل المختصين 
فى التنقيب فى البيانات» خاصة فى حالاات حيث وجود عدد كبير جدا من متغيرات 
متائنة (0 اك وجرا حل ان المجدال ميحد كيد مصظر ١‏ إلى تلقيضيا أمام قله 
الخيارات» من خلال استخراج عدد أصغر من المكوّنات. وقد يصف مختصو 
التنقيب في البيانات عملية الاستخراج هذه بتقليص أبعاد البيانات» مع الحفاظ على 
بنيتها أو نمطها الأصلي في الوقت نفسه. 
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النصل التاسم 
المصنفات 


تعد مصنفات التنقيب في البيانات» برامج تتنبأ بفئة أو بصنف متغير تابع ماء 
تُصنف ضمنه ترصدات فردية. على سبيل المثال» قمنا سابقاً بتصنيف الأفراد وفق 
توافرهم على تامين صحي من عدمه. متوسلين بعدد من الخصائص الديموغرافية. 
وفي بعض أنواع خوارزميات التصنيف حيث يشمل التصنيف تطوير نموذج إحصائي 

ع ع ا 

تنبؤي» من خلال استخدام مجموعة من متغيرات مستقلة» أو خصائص تتنبا بقيمة كل 
فرد على مستوى نتيجة متغير تابع أو هدف. ويستخدم ذلك التنبؤ - الذي يتمثل في 
شكل احتمالية تصنيف حالة معينة ما ضمن فئة أو صنف معين - لتصنيف الفئة التى 
16 - 
سيخصص لها ترصد معين. 

أما بعض الأنواع الأخرى من خوارزمية التصنيف, فلا تستخدم نموذج تنبؤي 
من هذا النوع» وإنما تستخدم الطرق اللا مَعلمية (7108-2813726]510)» للبث في 
صنف متغير نتيجة ماء يُصنّف ضمنه كُل ترصد. ولكن يشمل كُل تصنيف تعليماً تحت 
الإشراف (352128ع.1 61371560م511): من خلال استخدام مجموعة بيانات تدريب» 
تضم حالات» يعرف الشخص من أجلها التصنيف الصحيح لكل ترصد على حدة» 
بغية تطوير نوع من أنواع قاعدة تنبؤية. ويمكن تطبيق تلك القاعدة على مجموعة 
بيانات حيث لا يعرف الشخص فنة أو صنف كَل حالة» كى نصنف هذه الحالات 
الجديدة. 
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وفي الأقسام الآتية» نقدم أمثلة من مصنفات مختلفة عديدة» مستخدمة من قبل 
مختصين في التنقيب في البيانات. فقد قام علماء الحاسوب بتطوير العديد من 
الخوارزميات من أجل عملية التصنيف. بحيث تختلف هذه الخوار زميات تبعا لسرعة 
عمليتها ودقتها. علاوة على ذلكء. تعمل بعض الخوارزميات أفضل بالنسبة إلى 
مجموعات بيانات معينة مقارنة بأخرى. كما أن الممارسين لا يعرفون عادة - وبشكل 
مسبق - أي نوع من المصنف. الذي سيعمل على النحو الأفضل بالنسبة إلى بياناتهم» 
ومن ثمء لا غرو أن يتم تجريب عدة مصنفات ومقارنة دقتها على مستوى اختبار 
مجموعات البيانات» أو حتى الجمع بين التنبؤات المستمدة من هذه المصنفات 
المختلفة في مجموعة واحدة. فيما أصبح يعرف بعملية التعلم بالمجموعة. وغالبا ما 
تسفر عملية الجمع بين مصنفات مختلفة في مجموعة واحدة عن نتيجة أكثر دقة 
مقارنة مع أفضل المصنفات الفردية. 

- أقرب الجيران 

إن مصنف ع1- أقرب الجيران (162171). طريقة تصنيف لا مَعْلمِية وباعتباره 
مصنفاً من المصنفات» فهو بسيط جداً وبديهي. تصور أن لدينا مجموعة 5 من نقطة 
بيانات» نود تقدير عضويتها ضمن فئة من أصل اثنتين. ولدينا معلومات عن قيمة هذه 
النقاط على مستوى متغيرات أخرىء كا. وهذا يعني - من بين أشياء أخرى - إمكانية 
تحديد موقع كُل من نقاط البيانات في 5 في حيز متعدد الأبعاد. المحدد من قبل هذه 
المتغيرات المدخلة ل . ويمكن تحديد أقرب - أقرب الجيران لكل عضو من 8 من 
حيث وجود قيم مماثلة على مستوى 2< - من بين نقاط البيانات الأخرى. وبعد ذلك 
يمكننا تخصيص كُلَ نقطة بيانات 51 إلى الفئة التي ينتمي إليها معظم أقرب جيرانها. 


فعلى سبيل المثال» قد تكون لدينا بيانات تصف مجموعة مكونة من أطفال 
يبلغون من العمر ثلاث أو أربع سنين. وانطلاقاً من هذه البيانات» نعرف بعض الأشياء 
عن كل الأطفال دخل أسرهمء وتحصيلهم العلميء ومنزلة القوة العمالية» وكثافة 
السكان» ومتوسط الدخل المنزلى لمسالك تعدادهاء وغيرها. وفى هذه الحالة 
بمكها ابعحداء مسقت 161030 للحيو بوضعية لفل :ما قبل المدرسة»وذلك بتبناظة 
عن طريق تخصيص لذلك الطفلء» وضعية ما قبل المدرسة للأطفال الآخرين الذين 
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يعدون أكثر ممائلة له مخ خيث قياسات تذابيز الأسرة والجوار. وفى الأسامن» إنما 
نقوم به في هذه التقنية» هو أخذ حالة» والبحث من حولها في حالات أخر. مشابهة» 
واستخدام هذه الحالات لتخمين عضوية الفئة المنتمية إليها. 


ويمكن استخدام هذه التقنية للقيام بأكثر من مجرد تصنيف ثنائي؛ إذ بالإمكان 
استخدامها أيضاً من أجل تصنيف متعدد الفئات. (على الرغم من أن احتمالية حدوث 
«تعادل» يزداد مع عدد الفئات) » أو من أجل تنبؤ قيمة نتيجة مستمرة. وفي هذه الحالة 
الأخيرة» تقوم بحساب قياس المركزية انطلاقا من الجيران) الذين يعدون - وعلى 
نحو أكثر شيوعاً - الوسيلة أو الوسيطة) وتطبيقها باعتبارها تنبؤاً للحالة قيد الدراسة. 
ومن ثمء فإن انحدار 160101 مماثل تماماً لتقنيات التمهيد المحليء القائم على النواة 
مثل انحدار خطي محلي (1992 ,تقدطااك). 


هناك بعض التساؤلات الأولية التى ستصادف المرء قبل أداء هذه التقنية: 


أولاً: كم عد الجيران 'الذين يستو جب علق المزء اعشارهم؟ يمكن لهذا 
الاختيار أن تنتج عنه نتائج هامة» على خلفية إمكانية تخصيص حالات إلى فئات 
متعددة استناداً إلى ما إن تم - مثلاً - «إحصاء» ثلاثة من أقرب الجيران» عوض سبعة 
منها. وفى صياغة سابقة» رأى كُلٌ من كوفر وهارت (1967 118:6 24 001:65) أن 
استخدام جار واحد يمكن أن يكون كافياًء أو أفضل أحياناً. ومع ذلكء اقترح هاستي 
(©113501) وتيبشيرانى (11551113121) (1996) استناد مثالية جار واحد - بشكل كبير 
ع] ارج فده الماك المجعدية لمحدية الجسافة إن المتتاة الدائزية السععة 
للبحث عن حالة ماء تزداد مع ازدياد عدد المتنبئات المستخدمة» وذلك بجذب مزيد 
من الحالات البعيدة إلى أقرب الجيران قدر الإمكان. 

ويشمل حل إشكالية عدد الجيران المستخدمة - ودون غرابة - تقنية لا مَعْلمِية 
أخرى. ويمكن للمرئ استخدام الصلاحية المتبادلة لانتقاء أفضل قيمة ل>!. وتحديداً 
يمكننا تقسيم البيانات عشوائياً إلى ثلاثة أجزاء: 

© التدريب. 

© الصلاحية. 


م 


©» بيانات الاختبار. 
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ونقوم بتوليد تقديرات باستخدام عدة قيم مختلفة من »! في مجموعة التدريب» 
ثم نقوم بانتقاء أفضل قيمة لع! باستعمال مجموعة الصلاحية لمعرفة نوع الذي ينتج 
تصنيفاً أكثر دقة. وأخيرأًء نقوم بتقييم التناسب في مجموعة بيانات الاختبار. 

أما المسألة التمهيدية الثانية» فتتجلى في تحديد المعيار للبت في نقاط البيانات 
الأكثر قرباً؛ أي ما هو نوع المسافة التي سيستخدمها المرء في تحديد النقاط «الأكثر 
قرباً». ومن المألوف جداً أن تستخدم تقنيات 161/17 مسافة أقليدية» أو مسافة «مانهاتن» 
(مجمع المدينة) أو مسافة مالينوفسكيء ولو أنه يمكن استخدام أنواع أخرى من 
المسافة (ماهالانوبيس» على سبيل المثال). 

أما المسألة الثالثة - وفي علاقة بالمسألتين السابقتين - فهي تهم «عملية فرز 
الأصوات»؛ أي إنهء بعد اختيار »ا» وتحديد كيفية قياس المسافة» سنحصل بالنسبة إلى 
كُلَ نقطة من نقاط البيانات الأخرى. على مجموعة بيانات أخرى ل 4 التي تقدم 
معلومات من أجل تنبؤ التصنيف. وإن نقاط 1 هي في الأساسء «التصويت» على 
العضوية أو الصنف للحالة المستهدفة. ولكنء بما أن هذه النقاط من نقاط / قد لا 
تتفق» فكيف يجب علينا عدّ هذه الأصوات؟ فهل ينبغي عدها جميعاً على قدم 
المساواة؟ أم يجب علينا اعتبار نقاط البيانات الأقرب أكثر إفادة؟ عموماًء ينبغي 
ممارسة التمرين من خلال ترجيح الأصوات عكسياً للمسافة انطلاقاً من الترصد 
المعني بالدراسة (1976 ,1(00851). وبالقيام بهذاء بشكل عرضيء يخفف إلى حد ما 
من تبعات اختيار 06 أي إنه لما نزيد من قيمة 6» فإننا نقوم بالزيادة في حجم الحيز 
حول نقطة البيانات التي نبحث من خلالها عن معلومات حول عضوية الصنف. 
وبالقيام بذلك نزيد من احتمال ارتكابنا لخطأ ماء لأنه يمكننا «العبور» من حيز ماء 
حبق فية ف واغدة إل عير سريف عينة الضفث الأخر وبعل هذا مهما خاصةء 
بالنسبة إلى حالات الحدود) أي إن الحالات في فئة واحدة الأكثر تماثلاً لحالات في 
الفئة الأخرى). ولكن الترجيح بواسطة مسافة عكسية. يقلل من أهمية الحالات 
الأكئر يعداء ويزيدَ من تأثير التحالات الأكثز قرباً. 
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وثمة مسألة تمهيدية أخيرة مهمة» تتجلى في عدد متغيرات المتنبئ التي تستخدم 
فى تحديد المسافة - ال 2 التى نوقشت سابقا. وعلى ما يبدو - وعلى نحو حدسى 
إن اغبا أكبو مددميك عن المتقي انه تتركرن اليا نما أن ذلك هد ختاية أن 
يزودنا بمزيد من المعلومات التي تهم الحالات التي تعد «فعلاً» مماثلة» عوض فقط 
كونها متماثئلة على مستوى عدد قليلٍ من خصائص مختارة عشوائياً للغاية. ومع ذلك, 
إن الذي عرضء هو إمكانية أن يطرح وجود قدر كبير من المعلومات» مشكلة. وإن 
زيادة عدد السمات أو المتنبئات» يزيد من أبعاد حيز البحث. ومن ثم الحجم العام 
لحيز البحث (فكر في الانتقال من دائرة تحيط بنقطة ما إلى مجال ذي شعاع 1130115 
تلك النقطة). وبقيامنا بذلك. ينتهى بنا المطاف إلى زيادة عدد «الجيران» المتساوية 
الأبعاد (قصهاىتلنناو8) انطلاقاً مق النقفلة قيد الدراسة (أي تلك التى نريد تصنيفها). 
ومن خلال عدد كافٍ من السمات. ننتهي بحيز بحث؛ تم وصفه من قبل حيز- (أي 
حيز فى أبعاد 1» حيث إن 1 يشكل عدد السمات) الذي يشكل سطحه عددا كبيرا من 
نقاط البتاناكه الت #المتفاذلة) مو كيت العسنافة من نقطة الموكر. وق :هذه الجالة: 
يتم تسوية طريقة 50 الجيران على نحو حتمي من قبل لعنة البعدية (تصةعنطوطة]: 
11351 لمة) (1996). 


ويقتضي وجود عدد كبير من السمات - إذن - طريقة من طرق تخفيض البعدية 
- سواء كان ذلك باستخراج السمة أو انتقائها (أو حتى الجمع بين الاثنين). كما 
يمكن استخدام المكوّنات الرئيسة أو الإسقاط العشوائي لطي أبعاد الحيز؛ أو يمكننا 
رسم «اللاسو» (1.2550) تدريجياء أو انتقاء الأبعاد الأكثر أهمية باعتماد المراحل. 

ولم يجد »!-أقرب الجيران أبداً مأوى له في العلوم الاجتماعية على الرغم من 
حضوره فى أشكال مختلفة منذ عقود. (باستثناء حالة واحدة, انظر (2010 5ة1©)). 
واستعماله فى إعدادات تطبيقية مثل إدراك الوجه» وتصنيف النصوص. والبيولوجياء 

1-أقرب الجيران باستخدام منمذج الحزمة الإحصائية للعلوم الاجتماعية 


لقد تمت كتابة برامج لتشغيل مصنف من مصنفات غ!-أقرب الجيران لدى كل من 
المتالاب (21471148) و11 (حزمة1-أقرب الجيران). وإن حزمة التنقيب فى البيانات 
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للحزمة الإحصائية للعلوم الاجتماعية - المنمذِج - لديه أيضاً روتين !-أقرب الجيران» 
وهذا ما سنبينه أدناه» بحيث نوضح قدرته التنبؤية باستخدام بيانات من مسح المجتمع 
الأميركي» واستخدام »!-أقرب الجيران للتنبؤ بوضع التأمين الصحي. 

إن المنمذج نظام سهل المنال» طور لاستخدامه من قبل مختصين في التنقيب في 
البيانات - أشخاص فى مجال الأعمالء والتسويق» وغيرهما. ومثله مثل بعض 
التطبيقات الحديثة الأخرى) («الرايبدمايئر»» أو المثقت السريع (:6م101/1م1]3). 
مثلاً)ء فإن لدى شكله «تيارات» بناء مستخدم التحليلات. ويتكون 013 تيار من 
«سلسلة عقد» متصلة» يمثل كُل منها سلسلة من العمليات التى طبقت على البيانات. 
وإن نقر أيقونة عقدة ما نقراً مزدوجاًء يفتح نافذة ذات خباراتاعفرة ميخدفة : ؤكالة 
النوافذ مماثلة تماماً لتلك الموجودة في إحصاءات الحزمة الإحصائية للعلوم 
الاجتماعية» كما يتم تبديل الخيارات بشكل كبير من خلال التأشير والنقر عوض 
الصيغة. 


لقد قمنا بجمع عينة عشوائية مؤلفة من 6,000 حالة من مجموعة بياناتنا الضخمة» 
لأن منمذج العديد من برامج التنقيب في البيانات الأخرى. يمكن تشتغيله ببطئ عند 
أداء عمليات معقدة» انطلاقاً من بيانات ضخمة. بالإضافة إلى هذاء قمنا بموازنة 
البيانات على النتيجة عند معاينتناء لنستخلص عينة مؤلفة من 6,000 حالة مقسمة 
بالتساوي إلى حالات تتوافر على تأمين صحي أو لا تتوافر عليه. وقمنا بهذا لكي نزيل 
من البرنامج» إغراء تخصيص - ببساطة - جميع الحالات لفئة الأغلبية (وهذه 
استراتيجية ستسفر - على نحو عرضي - عن معدل خطأء غير محترم يقدر ب 13 /). 

وفي برنامج المنمذج نقوم بتمرير ملف البيانات عبر عقدة النوع.» حيث نختار 
المتغير الهدف ونقوم بتنظيف مستويات قياس متغيرات أخرى. وفي الخطوة التالية» 
نقسم البيانات إلى 50/ من مجموعة تدريب و50/ من مجموعة اختبار» لأن 
الصلاحية المتبادلة ضرورية حتماً لاستخدام مصنف !-أقرب الجيران. وأخيراء 
نقوم بوضع عقدة ع!-أقرب الجيران في هذا التيار (الشكل رقم 1.9). 


ولذى زوتين #ا-أقرت الجيران غدد كبير تقريباً من الخيارات الميثية داخله: مما 
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- إلى حدّ ما - قدراً كبيراً من المرونة. وبعد نقر العقدة نقراً مزدوجاء تُفتح 
نافدة» تسمح لك باختيار» فى جدولة الأهداف (186 1765ا0ء[06). ما إذا كنت تريد 


استخدام عا- أقرب الجيران فقط للعثور على أقرب الجيران لكل حالة على خدة: أم 
كنت تريد استخدامه باعتباره مصنفاً حقيقياً. وبما أننا نريد الاستخدام الأخيره ننتقي 
«تنبأ مجال هدف ما». وبعد ذلك» يطلب البرنامج ما إذا كنا حرصين على إنجاز 


المشروع سريعاً وبدقة متناهية» أو الجمع ب بين الاثنين» أو ما إن كنا نريد تخصيص 
النموذج. إن الخيارات الثلاثة ة الأولى تسمح للمستخدم بثلاث طرق مختلفة بالنسبة 


إلى نموذج اختيار الإعدادات الافتراضية. ونحن نشجع المستخدمين بقوة لنقر - 
بنساطة - 59 . ) (4113197515 01156021 )» و الانتقال إل الاعدادات نفسها. 
ب يل ممعحصص 2 و / 7 


عجدف وااحت ود من مرتسددة ممعت اوم 20 لح لوس لا لحا 
7ع ما امون ناولا هل كلد بزاهمة أه عمبزا أهطالالا 
لاع أعورها ده العم 9 
ىمططوع0 تمع ممعم عا باتلصعها /ول00© © 
7ع اععزناه نمز كا أقطلالاا 
لإعتسءعة لة مهمد ععمماة8 © 
عوه؟ اأهدمك د منطااها دامططوك0 أن ؟عطصسدم أهمعط عط كاعماعد (زالدعناق ميم 
لععم5 6 
مط زأوبع0 آن بجعم سا لعبنا! تخ 1105 
إعوساءعة 6 
سين لزنا وذ بع نيا ة ااا وامطاوت0 تن بغطناة أكعمط عا عاعميعك باللمعراظةرماريم 
كك نمأكال وتله امل رواب ع وما عم إقفتيقهمم 


كس تاقمة لاماكية © 


بلة) عوقاتع5 عذلا مه مولت عانا عصط عم ما برمراتزة 15 عومهايا 


سف بسعك لكفن] 











الشكل رقم 1.9: مصنف !-أقرب الجيران 
في منمذج الحزمة الإحصائية للعلوم الاجتماعية. 
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بعد ذلكء قمنا باختيار نموذجاً فى جدولة المجالات (7180 816105) (الشكل 
رقم 09)). وهنا نتوقع تغطية التأمين الصحي باستخدام منطقة التعداد والعمر» 
والعرق» والنوع. والمواطنة» والتحصيل العلمى» والحالة اللاجتماعية» ودخل 


الأسرةء والحالة الوظيفية» باعتبارها متنبتات. 


وفي جدولة الإعدادات (الشكل رقم 3.9)» هناك عدد من الأقسام الفرعية التي 
تتيح إعداداً مَعْلمياً. وفي إطار النموذج» تختار ما إذا كنت تريد استخدام البيانات 
المقسمة للتحقق من صحة النتائج» ووضع متغير تقسيم خاص بكء كما يمكنك أيضاً 
اختيار ما إذا كنت ترغب في بناء نماذج منفصلة بالنسبة إلى مجموعات مختلفة من 
الحالات. وهذا يعني أن بإمكانك إدارة التصنيفات منفصلة للرجال والنساء. على 
سبيل المثال» أو تقسيم البيانات إلى مجموعات فرعية عشوائية وتشغيل روتينات 
التصيفات المتصلة لكل :وائحدمزهاء:وهدا الحياز الأخيره» سيرد بسكل كيين مق 
مقدار الوقت الذي تستغرقه من أجل تشغيل العملية. وقد تريد ببساطة» تشغيل 
روتينات منفصلة بطريقة يدوية على مجموعة بيانات منفصلة. ما دام بإمكان منمذج 
ما حيازة أي عدد من مجموعات بيانات «مفتوحة» في آن واحد. 


بعد ذلك» وتحت خانة الجيران» نقوم بوضع قيم ل1. وإن الطريق الأسرع» هو 
تزويد البرنامج ب / ثابت» ولكن بالإمكان اختيار مجال ماء وسيقوم البرنامج باختيار 
قيمة» تقلص من معدل التحقق من الخطأ. ويتضمن هذا عملية تشغيل تحاليل متعددة 
-أقرب الجيران» مما يزيد من وقت التشغيل بشكل كبير. ومع ذاك» من الأهمية 
الحصول على > صحيحة. كما أن انتقاء قيمة» إما عالية أو منخفضة للغاية» سينقص 
من الدقة التنبؤية للبرنامج. ونقوم بوضع الحدّ الأدنى إلى 3» والحدّ الأعلى إلى 25 
لتمكين البرنامج من مقدار من المرونة في اختيار القيمة الأفضل لءا. 
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الشكل رقم 2.9: مدخل مصنف »1- أقرب الجيران في منمذج الحزمة 
الإحصائية للعلوم الاجتماعية. 


وفي هذه الجدولة؛ نقوم أيضاً باختيار المسافة القياسية التي سنستخدمهاء وماإن 
تم ترجيح السمات أم لم يتم. كما يمكن للبرنامج حساب المسافة الإقليدية أو مسافة 
مجمع المدينة («مانهاتن»)» ونحن نفضل المسافة الإقليدية. كما نختار ترجيح 
المتنبئات من خلال أهميتهاء متوخين بذلك اعتمادنا أكثرء على المتنبئات الأكثر 
أهمية في تنبؤ عضوية المجموعة - عموماً - في حساب المسافات لجيران محتملين. 

ثم تختار - تحت انتقاء سمة - ما إن كنت تريد البرنامج لانتقاء السمات للبت 
في متغيرات المتنبئ المعينة المستخدمة. وإذا كان لديك عدد متوسط من السمات 
- 15 أو 20» احتمالاً - فإن استخدام طريقة ما لإزالة السمات الزائدة أو غير المفيدة» 
هي فكرة جيدة» على ما يبدو. ولا نواجه هذه الحالة» ونفضل عدم أداء انتقاء سمة. 
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تضم إعدادات الصلاحية المتبادلة مَعلمات: يمكن تغييرها فقط في حالة عدم 
أداء انتقاء سمة. فهي تسمح للباحث بأداء الصلاحية المتبادلة لطية 1-؛ وضبط نواة 
لتخصيص حالات بطريقة عشوائية للطيات» وذلك حتى يكون من الممكن تكرار 
التحليل. ونحن بصدد استخدام الصلاحية المتبادلة الكابحة» لأن ذلك أمراً غير 
إذا سبق لك أن أدخلت متغيراء لصلاحية ما). وأخيرأء نقوم بتشغيل النموذج بنقر 


حم تشاكة واكام 0 معجد عسوي ب دعكا كا 5 
- جيبييو] وميه بم؟ ووم 


ععدله كوطاذأوع0 أكعرهعم أن مدعا © 











الشكل رقم 3.9: تحديد المعلم بالنسبة إلى مصنف غ1-أقرب الجيران في منمذج 
الحزمة الإحصائية للعلوم الاجتماعية. 
يظهر لنا كتلة النموذج (]711886 ا70006) التي أنتجها المنمذِج كيف أن معدل 
الخطأ تنوع مع (الشكل رقم 4.9)) وبدأت مرتفعة نسبياًء أي حوالي 30.0/ ؛ عندما 
كانت 1 1 أو 2» وانخفضت - بسرعة فى البداية» وبعد ذلك انخفضت على نحو أكثر 
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ينا تن بلقت 20:1 (خوالقى :0/2715 وعد هذه المركلة ذا معدل الخطأ فى 
الارتفاع مجدداً. وثمة نقطتان هامتان نشير إليهما في هذا المثال. ْ 

أولاً: يلير مدل الخطأ علاقة خط منحني مع 6. ويعد ارتفاع معدل الخطأ 
بشكل مطرد نسبياً بعد 13-/ مهماًء لأنه يمكننا بمعرفة عدم قيامنا ربما بمجرد تعريف 

ثانياً: ينبغي الإشارة إلى أن معدل الخطأ يتنوع إلى حدٌّ ماء ولكن ليس على نحو 
كبير. وربما يكون الأمر على هذا النحو بالنسبة إلى معظم البيانات» مما يشير إلى أن 
الأخنطاء في اختيار» ليست بالضرورة ذات عواقب وخيمة عملياً. وهنا يظهر أن نطاق 
معدل الخطأ أقل من 4 نقطة في الماثة. ومن ناحية أخرى. هذا يظهر فعلا أنه من 
خلال اختيار مجموعة واسعة من القيم الممكنة ل /» غالباً ما يكون بالإمكان القيام 
بعمل أفضل من حيث التنبؤ. 

وبإضافة عقدة تحليل ما إلى التيار» يمكننا فحص مدى فاعلية النموذج. ويؤدي 
مصنف !-أقرب الجيران بشكل باهر» من خلال تصنيف - وبشكل صحيح -74 / 
من بيانات التدريب و75/ من بيانات الاختبار. كما نلاحظ أيضاً قدرته التنبؤية اللائقة 
بالنسبة إلى كَل من الإيجابيات الصادقة (الذين يتوافرون على تأمين)؛ والسلبيات 
الصادقة. وفي بيانات التدريبء تبلغ نسبة نموذج الحساسية 71.5/. والخصوصية 
32 وأما الأعداد المقارنة بالنسبة إلى بيانات الاختبار» فهي 2/70.6 و 78.1/. 

ويقوم المنمذج بحساب «درجات الميل» بالنسبة إلى تصنيفاته التي تشير إلى 
مدى يقين البرنامج من تنبؤه. كما نرى في تقرير عن قيم الثقة (الشكل رقم 5.9) أن 
المنمذج صحيح بنسبة 100/ من الحالات» في حين إن لديه نسبة يقين من تنبؤه. 
تصل إلى 90.9/ في كل من بيانات التدريب وبيانات الاختبار. 

كيف السبيل إلى مقارنة !-أقرب الجيران بنماذج تنبؤية أخرى في بياناتنا؟ 
يقارن الجدول رقم 1.9 أربع طرق أخرى: 

© الانحدار اللوجيستي. 


© أشجار التقسيم. 
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0 شعاع الدعم الآلى. 
© شبكة محايدة. 


وتبدو الإجابة: جيدة إلى حدّ ما. وتقوم النماذج الأخرى بعمل جيد في إيجابيات 
صادقة تنبؤية» في حين تعمل -أقرب الجيران عملاً أفضل في السلبيات الصادقة 
التنبؤية. 


0,0 






عغة ممع 
6 
م 


028 


5 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 
(!) و«مططوتع١‏ أمععدع؟١‏ أه ععطدوسلا 


الشكل رقم 4.9: رسم بياني لمعدل الخطأ بقيمة ! في تصنيف >!-أقرب الجيران 


لقد بدأنا مناقشتنا لأدوات التصنيف - وهو حقل ضخم في ميدان التنقيب في 
البيانات - بحديث عن مصنف !-أقرب الجيران اللا مَعْلمِيء الذي يقوم بأداء جيد 
جداً في بيانات مسح المجتمع الأميركي في التنبؤ بتغطية التأمين الصحيء على الرغم 
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من أنه ليس متفوقاً على المصنفات الأخرى بشكل واضح. وسنواصل في القسم 
الموالي؛ تحليل خوارزميات تصنيف أخرى. 


1351051012 لاع اأناماناه 0 كاأدع؟ 8 
306 نا 585105 للأآبلا ععمةسلكمتكمط ل !5 و0أ30م00 :8 
2-90 1-11 الئل 
223 060 21/58 
2-5 774 






هِ 








الشكل رقم 5.9: مخرج من مصنف 1-أقرب الجيران 
في منمذِج الحزمة الإحصائية للعلوم الاجتماعية. 


2 


الجدول رقم 1.9: مقارنة !-أقرب الجيران بمصنفات أخرى. 


الدقة الدقة حساسية ١‏ خصوصية 

(تدريب) (اختبار)ة ‏ (اختبار)ة ‏ (اختبار) 
عا-أقرب الجيران 10318 11015 00016 .غ1 
الانحدار اللوجيستي ‏ 72.19/ 0113.1 0036 00013 
آلة متجهة الدعم 00105 102103 0016 1/0014 
شبكة محايدة 14 7289 172.606 2آ0113خ) 
شجرة تقسيم 532 0 13.45 1153.61 11ج 


مصنف بايز الساذج 

يعد مصنف بايز الساذج (0عنومة1© وعنرة8 712106) مصنفاً واضحاً وشظا 
للغاية - على ما يبدو - أثبت نجاحا ملحوظا في تطبيقات» مثل عملية مصفاة البريد 
المزعج» وتصنيف الوثيقة. وظل يستخدم لأكثر من 40 عاماً - وإلى عهد قريب جداً 
- في معظم تطبيقات استرجاع المعلومات (1998 1.6715). وهو يعمل على 
الافتراضات غير الواقعية التي تفيد بأن (أ) مساهمة جميع متغيرات المتنبئ في عموم 
التنبؤ أو التصنيف هي مهمة على نحو متساوء وأن (ب) تأثيرات المتنبئات مستقلة عن 
بعضها بعضاً. وتسمح هذه الافتراضات غير الواقعية» التي تمنح المتنبئ بايز اسمه 
بأن يكون كفوءاً حسابياء وأن يتطلب بيانات تدريب قليلة جداً» لتطوير تقديرات مَعْلم 
ما؛ فهو غالباً ما يقوم بأداء جيد. مقارنة بالخوارزميات الأكثر تعقيداً» والكثيفة حسابياً 
على الرغم من الافتراضات غير الواقعية التي يستند إليها 2828 ,2001 ,طون8) 
(2004. 


وفى أي مشكلة تصنيف. ثمة فئة نتيجة» نحاول التنبؤ بهاء ومجموعة من متغيرات 
الفدتل التي نستخدمها لبناء هذا التنبؤ. إننا بصدد القيام بتقدير احتمالية الفئة التي 
منحت متغيرات المُدخل. ومن ثم؛ فإن نظرية بايز» تعيد كتابة مسألة التصنيف على 
النحو التالي: 


دمل ) و/زيز - اام - كم ورزير - *[)م - لور - لامر - *[)ن/ 
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وهذا يعنى أن احتمالية النتيجة الممنوحة للمدخل (أو المدخلات)» هى ثمرة 
احتمالية التتيجة واحتمالية المدخل (أو المدخلات) الذي منح النتيجة» مقسوم على 
احتمالية المدخلات. وإذا كانت هناك متغيرات متعددة في متجهة 16» فسنقوم ببساطة» 
بمضاعفة الاحتماليات المشروطة. ويمكننا فعل ذلك بالنسبة إلى كل فئة من فئات 1 
ومن ثم تخصيص لكل حالة لذلك الصنف من أصناف 7 الذي تعد احتماليته المقدرة 
(أو «احتماليته الخلفية») الأكثر ارتفاعاً. كما يستخدم مصنف بايز بيانات التدريب 
لتقدير قيم المَعْلمات على الجانب الأيمن من المعادلة المذكورة أعلاه. ثم تطبيق 
هذه التقديرات لاختبار البيانات من أجل تصنيفها (1998 ,ؤذتتاع.آ). 

إن بايز الساذج يختلف عن الانحدار من ناحيتين مهمتين: 

أولهما: أنه لا يعالج أي واحد من هذه المتنبئات باعتبارها أكثر أهمية من أي 
متنبئ آخرء والأمر الذي تقوم به - في الأساس - المعاملات في نموذج انحدار 
لوجيستيء من خلال التصرف كترجيحاتء يتم بواسطة كُلّ قيمة متغيرة ما. 

ثانيهما: بينما تقدر نماذج الانحدار آثاراً جزئية من المتغيرات - المتوسط 
المستقل للتأثير الهامشي لكل متغير عندما تبقى قيم المتغيرات الأخرى ثابتة - يسمح 
بايز الساذج للاحتمالات المشروطة للمتنبئ باستقلاليتها بعضها عن البعض على 

مثال في «الرابدمايئر» أو المنقب السريع 

لقد كتبت الروتينات من أجل أداء تصنيف بايز الساذج بالنسبة إلى 1 (وهو 
تحكم بايز الساذج في حزمة أكبر ل 10716) وماتلاب (8141.48). وهناك تطبيق 
آخر له في الخادم (561761) إحصائيات نموذج الحزمة الإحصائية للعلوم الاجتماعية» 
ومختصرات (3136105)» بما أن استعمالها كُتب لأجل نظام التحليل الإحصائي 
(5.ك5). والبيثون (90602). 
سريع لحزمة برمجيات مجانية) (بحيث يجري تحميله بسهولة انطلاقاً من الموقع 
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(حامء .اعستحصل تمت : / / مبتخط) ) . ومثله في ذلك مثل منمذج إحصائيات الحزمة 
الإحصائية للعلوم الاجتماعية الذي نوقش أعلاه يعمل المنقب السريع عبر الصياغة 
السهلة الاستعمالء للتيارات والعقد. ومع ذلك. ينبغى على القارئ ملاحظة أن 
خوارزمية بايز الساذج» غير مشمولة في نسخة المنقب السريعء القابل للتحميل بشكل 
منفصل عن طريق سوق امتدادات المنقب السريع. وعليه ابحث عن سوق الامتدادات 


نستخدم البيانات من مسح المجتمع الأميركي للتنبؤ بوضع التأمين الصحي. 
وتمت معاينة البيانات عشوائياً وموازنتها بحيث تشمل كُلَ من الأفراد المؤمّنين وغير 
المؤمّنين» 50/ من الحالات. وكما ناقشنا ذلك سابقاء إن القيام بعملية موازنة البيانات 
على مستوى الحصيلة يعد في الغالب فكرة جيدة عند أداء اختبار مصنف ما. وإن 
القيام بهذاء يزيل من المصنف إغراء سلك السبيل السهل من أجل تقليل معدل الخطأ 
من خلال تصنيف كَل الحالات ببساطة. على أنها تنتمي إلى الصنف المهيمن. 


وينبغي انّخاذ العديد من الخطوات الأولية كي يشتغل مصنف بايز الساذج بطريقة 
أكثر سلاسة فى المنقب السريع: 
في المنقب السريع 


أولاً: يعمل الحافر السريع في تجربتناء بشكل أفضلء وأسرع بكثير» إذا كانت 
المتنبئات المستمرة المتفردة باستمرار» سابقة لآوانهاء على الرغم من أن بايز الساذج 
يستطيع - نظرياً - أن يتعامل مع متنبئات مستمرة (حساب الاحتمال المشروط من 
توزيع غاوسي). 

ثانياً: يقوم المنقب السريع بقراءة المتغيرات جميعها بشكل افتراضي بقيم رقمية 
باعتبارها متغيرات مستمرة. وبتعبير آخرء ينبغي تسجيل المتغيرات الفئوية» 
والمتغيرات الوهمية من حالة أرقام إلى متغيرات سلسلة (ذات قيم سلسلة) حتى 
رابدمايئر من قراءة هذه المتغيرات بصورة صحيحة. 

وبعد تمييز المتغيرات المستمرة» وإنتاج قيم سلسلة» نخصص 70 / من بياناتنا 
لتدريب النموذج و30/ لاختباره. وبعد ذلك نقوم بتشغيل نموذج بايز الساذج. وفي 
المنقب السريع» يظهر هذا على الشاشة كما هو مبين في الشكلين رقم 6.9 و رقم 7.9. 
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وتشير مصفوفة الارتباك (الجدول رقم 2.9) إلى أن لدى النموذج دقة شاملة 
تصل إلى 72.42/ في بيانات الاختبار» مما يدل على أنه قادر على المنافسة مع 
المصنفات الأخرىء مثل !- أقرب الجيران التى سبق لنا فحصها. 


كما يمنحنا المنقب السريع أيضاً تقديرات توزيعات احتمالية» في جدول توزيع 
نموذج (الجدول رقم 3.9). وتعد هذه التقديرات - كما سيذكر ذلك القارئ - 
احتمال الخاصية لعضوية صنف معينء وليس العكس ١(لهذاء‏ فإن الاحتمالات لا 
يصل إلى 100). وينبغى قراءتها على النحو التالى؛ فاحتمال أن تكون حالة ما بيضاءء 
علق اعبار انها نو قشعو 733تو رو احسيال أن تكرن يقناء امار ها عيرموسة هر 
3 ومن ثمء يشكل البيض الأغلبية لدى الأشخاص المؤمَّنين وغير المؤمّنين» 
غير أن تمثيليتهم مفرطة بين الأشخاص المؤمّنين. وعلى النقيض من ذلكء إن احتمال 
حصول السود على تأمين» هو 0.099» في حين إن احتمال عدم منح السود أي تأمين» 
هو0.125. مما يشير إلى أن تمثيلية الأميركيين الأفارقة مفرطة بين أولئك الذين 
يفتقرون إلى تأمين صحي. 

وإذا ما اخترناء فيمكننا التقدير انطلاقاً من جدول التوزيع» احتمالية أن يكون 
لدى فرد ما مزيجاً معيناً من الخصائصء إما ضمن خانة المؤمّنين أو خانة غير 
الموامنين» ل :على ييل الال شخضا أسوداء أعدي» وشائرا: على :درجة 
الباكالوريوسء ويعيش بالمنطقة الوسطى للولايات المتحدة» وغير إسباني» ومن غير 
المولودين بالخارج. ويملك منزلاء وليس مخضرماء وله عمل. وعمره 27 عاماء 
ويعيش في منزل» ويجني 70000 سنوياً. يمكننا ضرب خط أساس احتمال النتيجة في 
احتمالات هذه الخصائص التي تم الإعلان عنها في الجدول أعلاه؛ مرتين: مرة يمنح 
فيها التأمين» ومرة لا يمنح. وفي كلتا الحالتين» تُضرب فيها الاحتمالات أيضاً في 
الاحتمالات المسبقة للنتيجة (0.50 بالنسبة إلى كُلّ من مسألة وجود التأمين الصحى 
وعدمه. مع الأخذ بعين الاعتبار توازن البيانات): ١‏ 


أرجحية احتمال تأمين الفرد - 144»0.388<0.099:0.50 .0.888<20.396»0 
“120.962 1<20.477<20.76 1 111:0.490:>0.9 .172:20 .0 - 0.00000298 


أرجحية احتمال تأمين الفرد - 0.7091»0.400»0.076<»0.4920.125<0.50 
>169<»0.2950.6822»0.97020.5320.5530.805 .0 - 175 0.000005 
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وانطلاقاً من هذا الحساب» يمكن تخمين إمكانية أن يكون هذا النوع من الفرذ» 
غير مؤمن أكثر مما يكون مؤمناً. ولاستجلاء هذه المعلومة أكثرء يمكن تحويل هذه 
الأرجحيات إلى احتماليات: 

احتمالية تأمين الفرد - 0.00000298/ (0.000005175+0.00000298)- 
3 - 35.83/ 


احتمالية عدم تأمين الفرد -0,000005175/ (0.000005175+0.00000298) 
- 0.6416 - 64.16/ 


وعوصعن نم إزاوانا 





الشكل رقم 6.9: بناء تيار بايز ساذج في المنقب السريع (الإطار الأول). 


ونمو بم يله 





الشكل رقم 9 بناء تيار بايز ساذج في المنقب السريع (الإطار الثاني). 
الحدول رقم 2.9: مصفوفة الارتباك من مصنف بايز الساذج. 


مؤمن حقيقي 22 غير مؤمن حقيقي دقة 
مؤمن متنباً 8/0/9 238 4 71/ 
غير مؤمن مثباأ 2,56 12026 1139 
مجموع معدل الدّقة 11212 
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الجدول رقم 3.9: جدول توزيع النموذج من مصنف بايز الساذج. 


معلم (30) 


أبيض 


متزوج.ء الزوج حاضر 
متزوج. الزوج حاضر 


منفصل 


(10) :2 مؤمّن 
07132 
029) 
248)) 
02)07) 
012 
01)) 


00908 


049 


0202 


0213 


0020 


0055 


03331 


)09 


(16) +2 غير مؤمّن 
5-3_) 
125) 
0)22) 
6)) 
02291 
02) 


)0002 


0_0 0 


029 


00020 


010 


01 9 


04 


005006 





التعليم 


الجنوسة 
حالة التخضرم 
حالة التخضرم 
الحالة الوظيفية 
الحالة الوظيفية 
لعن 
وين 


مستوى كلية ما 
درجة الزميلة 
مستوى الباكالوريوس 
درجة التخرج الجامعي 
المجديظ الهادق 
الجبال 
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0171 
005 9 
)4 
00258 
04 
0020 
)36 
017 
)2 
0658 
012 
002 
)0)28 
0,61 
)29 
02533 
)7 
021 
)0)59 
0630 
)0 
0122 
0113 


)203 
0020 
)0)6 
)00)22 
0156 
)00)22 
)0 
0120 
)213 
0,09 
0291 
005 
01025 
0_3 
)7 
048 
)52 
000 
)002 0 
0_8 
)6)2 
08 
02020 


العمر 30-8 0.11 5) 


العمر 37-0 0207 014 
العمر 44-7 025 04 
العمر 50-4 0255 019 
العمر 56-0 023 010 
العمر 64-6 0114 0023 
العمر 04+ 013 0626 
الدخل الأسري2 دون8534,300 0,0 0.26 
الدخل الأسري 50,000-134,300 055 010 
الدخل الأسري 70,900-550,000 0172 019 
الدخل الأسري 106,000-570,900 0205 017 
الدخل الأسري أزيد من 85106,000 027 0027 


وبعبارة أخرىء من الأرجح تقريباء أن يكون هذا النوع من الفرد غير مؤمّن 
بمقدار مرتين أكثر من نسبة كونه مؤْمَّناء وأن بايز الساذج سيخصصهما لصنف غير 
المؤمّن. 

وقد رأينا إمكانية أن يكون بايز الساذج مصنفاً كفء. ودقيقاً» ومفيداً. ويقارن 
بشكل جيد مع الخوارزميات الاكثر تعقيداء كما أنه يفهم بسهولة اكثر من مصنفات 
عديدة أخرىء التى تعمل أكثر باعتبارها «صناديق سوداء». وننتقل الآن من إحدى 
أبسط خوارزميات التصنيف إلى الأكثر تعقيداً: آلة متجهة الدعم. 

آلة متجهة الدعم 

تعد آلات متجهة الدعم (517/215) نوع آخر من المصنف. وتم تطوير خوارزمية 
آلة متجهة الدعم في أوائل التسعينيات من قبل الباحثين في مختبرات بيل 8611) 
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(125018601165» فلاديمير فابنيك (علتطمه/ عتحسنل12/ا). 320 ,دملزنا0 رزعوم8) 
(1992 عانهمةلا وتقديمها في شكل عصري في عام 1995 من قبل فابنك وزميله 
كورينا كورتس (001665) 0012128)) (1995 بكلتطمها 300 ,001165)). وقد جرى 
تطويره في البداية باعتباره مصنفاً ثنائيء ومنذ ذلك الحين» تم توسيع إطار آلة متجهة 
الدعم لتصنيف متعدد الفئات» والانحدار» والتجميع» واكتشاف الشاذ من الحاللات» 
بل وانتقاء سمة نفسه. ومع ذلكء يبقى استعمال التصنيف الثنائي الأكثر شيوعا. ونركز 
على هذا التطبيق فيما يلي. أصبحت آلة متجهة الدعم الأجر المعياري في مجالات 
من قبيل الصورة» وتصنيف النصء وتعرف الحروفء وأثبت أهميته القصوى في 
العلوم الطبية الحيوية لتصنيف البروتين والكشف عن السرطان. ومع ذلك. لم يظهروا 
- وبشكل محدود - إلا مؤخراً في العلوم الاجتماعية» في حقول مثل الشؤون المالية 
(2006 عن زاعصة8 لطنة ,قعلقطعط35:15)). والديموغرافيا (2011 .21 اع علةاوه>1), 
والتسوق (2005 جتنت 320 ,ند©)). 


ولفهم ما تقوم به آلة متجهة الدعم؛ يجب أولاً اعتبار مجموعة من النقاط في 
حيزه المنقسمة إلى فئتين؛ فآلة متجهة الدعم - مثلها مثل مصنفات أخرى - تبحث 
عن مبدأء يقسّم هذه النقاط إلى مجموعات بأقل قدر ممكن من الخطأ. وإذا وجدت 
نقاطنا في حيز ثنائي الأبعاد» فسيكون هذا الفاصل خطأ ماء ويكون مسطحاأ في حيز 
ثلاثي الأبعاد. وفي أبعاد أكبر من هذه. سيكون الفاصل مسطحاً بشكل مفرط للغاية. 
وبما أن أجهزة الدعم الآلي تبحث دوماً عن مصنف في حيز متعدد الأبعاد. فهي عادة 
ما تسعى إلى وصف السطح المفرط في الانبساط (أو سطح القرار) التي ستميز بشكل 
أفضل» بين مجموعتينا. فكر في حيز متعدد الأبعاد مليء بالنقاط الحمراء والزرقاء» 
حيث الألوان ليسث مختلطة تماماء وإثما وجود مناطق ذات ثقاط زرقاء بالأساس») 
ومناطق أخرى ذات نقاط و«حدود» بالأساس» حيث يفسح لون واحد المجال إلى 
آخر. إن سطح القرار هو سطح ذو بعد -2 (8-011262510081)) قادر على فصل - 
بقدر الإمكان - مناطق النقاط الزرقاء عن مناطق النقاط الحمراء. والسؤال المطروح. 
هو أين ينبغي وضع سطح القرار؟ 
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إن أجهزة الدعم الآلي لا تستخدم نقاط البيانات المتاحة جميعها لمعرفة كيفية 
فصل البيانات» بخلاف تقنيات الانحدار أو العديد من تقنيات التعليم الآلي الأخرى 
مثل مصنفات بايز أو الشبكات العصبية؛ فهى بدلا عن ذلك» تستعمل فقط النقاط 
الأكتن: ]دهاج #دالتتاط الأرسيه إل «الحدودة: والسطح المفرط في الانبساط 
الفاصل - للبت في كيفية تشكيل التمييز. وبطبيعة الحال» يتم وصف نقاط البيانات؛ 
كُ على حدة» لوط مجموعة من الإحداثيات» وهي من ثم. متجهات (1/601015). 
وتعد متجهات كل : فئة على حدة, الأقرب في الحيز إلى متجهات الفئة الأخرىء 
والمستخدمة من قبل آلة متجهة الدعم لإيجاد سطح القرار» تدعى متجهات الدعم 
(15مأعع17آ 011ممنا5) . 


ويمكن الآن تقفي أثر عدد لا يحصى من أسطح القرارات أو النسج بين هاتين 
الحالتين الحاسمتين» ومن ثم؛ ضرورة اختيار الأفضل منها - أي اختيار أمثلها؛ فأي 
مبدأ مثالى ينبغى استخدامه. يا ترى؟ يمكننا وصف المسافة بين نقطة وسطر رياضيا. 
وانطلاقاً من أجهزة الدعم الآلي» نختار سطح القرار ذو المسافة الكبرى بينها وبين 
متجهات الدعم. تصور مجموعة سطح بين هذه النقاط الحمراء والزرقاء الأقرب إلى 
الحدء والتي تعظم مسافتها انطلاقا من تلك المجموعتين من النقاط. وتسمى هذه 
الفجوة أو المسافة بين متجهات الدعم وسطح القرار» الهامش. وتبحث أجهزة الدعم 
الآألي عن سطح القرار الذي يعظم الهامش 

إلى حدود الآن. لا تختلف أجهزة الدعم الآلي كل الاختلاف عن باقي الطرق 
الأخرى المألوفة. وتقوم أجهزة الدعم الآلي بتعقب سطح ما عبر حيز متعدد الأبعاد. 
الذي يصف بفاعلية» العلاقة بين الخصائص وعضوية المجموعة؛ وهذا لا يختلف 
- في واقع الأمر - كل الاختلاف عن الانحدار اللوجيستي» من حيث المبدأء ولكن 
تختلف أجهزة الدعم الآلي اختلافاً جوهريا فقط فيما يتعلق باستخدامها لمجموعات 
فرعية هامة من الحالاات. عوض كلها (ما يجعل أجهزة الدعم الآلي أكثر فاعلية)» 
ولأن أجهزة الدعم الآلي تعظم المسافة - عوض تقليصها - بين النقاط الرئيسة» 
وخط السطح المفرط في الانبساط الذي تتعقبه. 


ولكن افترضنا حتى الآنء أن المعلومات التى بحوزتنا حول حالاتنا أو نقاطنا - 
أي جمعنا لميزات السمات أو المتغيرات - سيسمح لنا برسم خط أو السطح المفرط 
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في الانبساط عبر النقاطء التي تفصلها إلى مجموعتين متميزتين؛ أي أننا افترضنا أن 
مجموعاتنا قابلة للفصل خطياً. 

ولكن لا يكون الأمر على النحو في كثير من أحيان. قد تكون لدينا - على سبيل 
الجقال ‏ لخاللات تكوة فيها فيه واتعدة (أو لوث نقاظ) ميحاظة بالتعامل يغلك الفنات 
الموجودة في فئة مختلفة. وإن صح ذلك فلن يوجد خط أي فاصل خطيء يمكن 
تصوره. والذي قد يسمح بفصل الحالات إلى مجموعاته الخاصة. ومادمنا مقتصرين 
على الحيز البعدي -2 المحددة بمّدخلاتنا (حيز المدخلء في لغة آلة متجهة الدعم)؛ 
فإن أي مصنف سيعجز عن تصنيف نسبة كبيرة من الحالات بشكل صحيح. 

هنا تظهر جدّة أجهزة الدعم الآلي» إذ يفسر صعوبة هذا التصنيف بالبُعدية 
المقيدة. وإذا أمكن لنا إسقاط بياناتنا داخل فضاء ذي بعد عالى» فسيكون بإمكاننا 
فصل هذه الحالات. ويشار إلى هذا الحيز ذي البعد العالي (أدح اله ذي البعد 
اللا متناهي)؛ حيث الحالات منفصلة خطياء بحيز السمة. كما أن رسم حيز المدخل 
حيز السمة هو مجرد مسألة تطبيق وظيفة رياضية على البيانات لتحويلها بشكل 
مناسب إلى حيز ذي بعد عالي. 


وتكمن الصعوبة في كون أن خصائص حيز هذه السمة» غير معروفة لديناء ولهذا 
فمن غير الممكن عموماًء معرفة الوظيفة الرياضية الحقيقية التي نحتاجها. ولكن 
الظاهر أن هذا لا يهم في واقع الأمر. الي با العام باقر 01 النواة 
(0مأعصلط اأعمع ل التي ستقاربها (التي يث* يشير إليها مطورو أجهزة لدعم الال 
بتعبير خدعة النواة (175101 1©1061)). وثمة العديد من وظائف النواة. وعنوماً ستوفر 
برامج آلات متجهة الدعم المستخدم بعدد قليل من الخيارات. حول النواة الممكن 
استخدامها. وإن أفضل نواة مؤهلة لهذه المهمة» ليست شيئاً يمكن معرفته عادة في 
وقت سابق لأوانه) اللهم إلا إذا كنت تجيد رسم البيانات داخل أبعاد عليا في ذهنك): 
ولهذا يمكن أن يتم الاختيار فقط عبر التجربة والخطأ. 


هنالك صعوبة واحدة بخصوص هذه الخدعة,. وهو أنه من المحتمل أن تفوق 
تناسبيتها البيانات. وبتعبير آخرء قد يؤدي إسقاط البيانات إلى حيز ذي بعد عالي إلى 
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انفصال خطي كثير للبيانات الخاصة التي بين أيديناء ولكنها حققت الانفصال عن 
طريق رفع كوكبة من متجهات دعمء وقد تكون هذه الكوكبة خاصة بتلك البيانات 
المميزة. وبالتالي فقد أضحى من الضروري أداء الصلاحية المتبادلة عندما يتم 
توظيف أجهزة الدعم الآلي سواء عن طريق الإبقاء على جزء من البيانات لاختبار 
نموذج آلة متجهة الدعم. أو عن طريق الصلاحية المتبادلة لطية 1-. وسيطلعك هذا 
عما إذا كان نموذج آلة متجهة الدعم يعمل عند تطبيقه على بيانات أخرى - أي ما إن 
كان تعميمه أمرأ ممكنا. 


عا ىاعناها5 


530 +أهرروطاماماعماومصانا حاقط اا عل مهما 


كيهل كد كلعطقا مدع © عاعهها اق ععممقم لمع 8 © جعرريدر عاطقامولا ١١‏ 
دادل عد كاعها لدع 0 عاغطما مه هلقن لجع 8 كعنالق/ا 


عوةمأك عرريج بعاعل ها دمناك ه61 10081 560 05 








الشكل رقم 8.9: تحميل البيانات لأجل تحليل آلي 
لمتجهة دعم في منمذِج الحزمة الإحصائية للعلوم الاجتماعية. 


آلات دعم المتجه في منمذج الحزمة الإحصائية للعلوم الاجتماعية 

لأن أجهزة الدعم الآلي لم تكن موجودة طوال هذا الوقتء ولأن استعمالها لا 
يزال مقتصراً على مهام متخصصة. لم يتم دمجها في معظم الحزمات الإحصائية 
التجارية. إن برامج آلات متجهة الدعم متوافرة في ؟1 و«الماتللاب» وكذا فى عدد من 
أجنحة التنقيب في البيانات. وإن الحزمة الإحصائية للعلوم الإنسانية قد تم ضمها 
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أيضاً إلى برنامج منمذجها من برامج التنقيب في البيانات» التي سنقدم توضيحاً بشأنها 
أدناه. 


ولتشغيل آلة متجهة الدعم في المنمذجء نحتاج أولًا إلى انتقاء بعض البيانات. 
والمنمذج قادر على قراءة عدد من أنواع مختلفة من ملفات البيانات مثل ملفات 
إكسيل أو ملفات النص؛ فبياناتنا موجودة سلفاً في ملف (.5337) لحزمة الإحصائية 
للعلوم الاجتماعية 5855 لذا ننتقي جدول الموارد للوحة العقد وننتقي ملف 
الإحصائيات. وبعد ذلك تفتح العقدة على الشاشة؛ التي ننقرها مرتين لانتقاء ملف 
البيانات الذي نريده. (لتصفح الملف على حاسوبك. اضغط على الزر الأزرق ذي 
النقاط الثلاث» على يمين علبة نصّ الملف استيراد الملف (ع7116 121201+6) كما هو 
مبين في الشكل رقم 8.9). 
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الشكل رقم 9.9: تقسيم البيانات قبل تحليل آلة دعم المتجهة في منمذِج الحزمة 


نختار مجموعة بيانات انتخابات 2012 على مستوى المحافظة. التى قمنا 
بتعديلها لتشمل المتغير الوهمىء. المشفر 1 إن عادت 50/ أو أكثر من أصوات 
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المقاطعة إلى أوباما و0 فيما عدا ذلك. وعلى العموم. فبياناتنا صيغت مسبقاً في الجزء 
الأكبر منها. وهذا ليس أمراًضرورياً بما أن المنمذج يمكنك من إنتاج متغيرات جديدة 
أو تحويل تلك الموجودة. كما يسمح لك أيضاً معاينة حالاتها أو إقصاء مجموعة 
فرعية منهاء ولكن تهيئ البيانات هو - إلى حد ما - أمر أسهل وأكثر بساطة في برنامج 
إحصائي معياري مثل الحزمة الإحصائية للعلوم الاجتماعية (5855) أو «الستاتا» 
(518]8): خاصة إذا كنت مطالباً بالقيام بالعديد من التغييرات» ولهذا نقترح إعداد 
بياناتك أولاً قبل تحميلها في المنمذج. ومع ذلك» ستتحقق من أن كُلَ المتغيرات 
مشفرة بشكل صحيح باعتبارها متغيرات مستمر وفئوية» وهكذا. ويمكن القيام بهذا 
يدوياً أو آلياً من خلال نقر اقرأ القيم (65ااة/ا 8684) في جدول الأنواع في نافذة 
العقدة لملف الإحصائيات. 


وبعدها نقسم البيانات إلى قسمين. ولا بُدَّ من القيام بهذا التقسيم في عقدة 
مستقلة» بدلا من انتقائه كخيار ضمن نافذة الإجراء كما في الغامب (11/11). وفي 
لوحة العقد. قم بانتقاء جدول مجال العمليات» وبعدها انقر تقسيم (2210602). 
وهذا يستدعي نافذة التقسيم المعروضة في الشكل رقم 9.9. كما يمكنك المنمذج 
من إنتاج أجزاء التدريب» والاختبار» والصلاحية أو فقط الجزأين الأولين واختيار 
جزء البيانات المراد إدراجها في كل واحدء كما سنقتصر على إدراج جزئي التدريب 
والاختبار بما أن بياناتنا تملك فقط 3.114 حالة. 

ومن أصل 3.114 محافظة من محافظاتناء صوتت حوالي 25/ لصالحه. فيما 
صوتت 75/ ضده (لكن 25 في المائة من المحافظات التي ربحها أوباماء كانت في 
معظمها محافظات مليئة بالسكان). ويجد العديد من المصنفات صعوبة مع البيانات 
غير المتوازنة من حيث النتيجة التي تميل إلى تقليص معدل الخطر من خلال 
تخصيص كل الحالات أو معظمها للأغلبية. ولمعرفة ما إن كان هذا الأمر مهما 
بالنسبة إلى أجهزة الدعم الآلي» سنقوم بتحليلات تهم البيانات المتوازنة وغير 
المتوازنة. وإن موازنة البيانات بسيطة - نوعا ما - في المنمذج. يكفي نقر جدولة 
سجل العمليات (126 025 0150ع16)؛ واختيار التوازن (عع2ة[88). 
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الشكل رقم 10.9: بناء تيار تحليل آلة متجهة الدعم في منمذج الحزمة الإحصائية 
للعلوم الاجتماعية. 

حالات بشكل عشوائي) أو من خلال زيادة فئة أخرى (عبر مضاعفة الحالات). 
ستحتاج إلى اختيار صيغة تخبر المنمذج عن الحالات التي تريد أن تغير (مثل افوز 
أوباما - 1»)؛ ومن ثم قاسماً مشتركاً يتم من خلاله ضرب الحالات ت لتحقيق عددك 
المرغوب فيه. ونضرب فوز أوباما - 0 في 0.4. وفوز أوباما - 1 من الحالات في 
54 لموازتة البيانات (إلى عَدّ ما) على مستوق الحصيلة. ويمكتك هنا أختيار منواة 
ما إن كنت تريد موازنة البيانات فقط في مجموعة التدريب؛ أو أيضاً في مجموعتي 
الاختباز والصلاحية. ون معايئة البيانات في مجموعة التدريب أمر مفيد فقط إن 
أردت استعمال مجموعة الاختبار لتوليد نتائج الميول (الذي يمكن للمنمذج توليده 
بسهولة). وبما أننا لا نريد القيام بذلك» فسنوازن على مستوى المجموعتين معاً. 
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إننا الآن على استعداد لتشغيل آلة متجهة الدعمء وهذا موجود تحت قائمة 
النمذجة باعتباره آلة متجهة الدعم. وبعد إضافته إلى التيار» ستحتاج إلى بناء نموذج 
خاص بك (انظر الشكل رقم 10.9). واشرع بداية في تحديد المتغير الهدف. وبعدها 
اختيار المتنبئات التي تريد في النموذجء ومتغير التقسيم (المولد تلقائياً إن كنت قد 
أنتجت عقدة التقسيم). ثم قم باختيار خاصيات آلة متجهة الدعم الذي تريد تشغيلهاء 
وذلك عبر اختيار جدولة الخبير في نافذة آلة متجهة الدعم. كما يمكنك فتح مفاتيح 
الخيار عبر ضبط الوضعية للخبير ضمن هذه الجدولة (انظر الشكل رقم 11.9). 
وسيمكنك هذا من اختيار نوع النواة ومعلم «غاما» (إن كانت لديك نواة لا خطية)؛ 
ومعلم الضبط ل © وضبط الدقة وقاعدة الإيقاف. 


اعد © عامممزك © 
(كاء وها أدءموعادء 5] نرلمه لتلهب) ععناةازإطقطممم أأد لمعممم [7] 


:2ع و0امم510 


812 03001: 


2 11 


ع نضنها نععا 








الشكل رقم 11.9: إعداد مَعْلمات آلة متجهة الدعم في منمذج الحزمة الإحصائية 
للعلوم الاجتماعية. 
إن قاعدة الإيقاف تخبر المنمذج عندما تريدها أن تبت في كون التقاء نموذجك. 
وقد تم تخفيض الافتراض - إلى حدّ ما - ولكن إذا أردت أن تتيقن من بلغوك الحد 
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الأدنى العام يمكنك إدخال عدد أقل انخفاضاً. وإذا أردت التقاء أسرعء فارفع من 
قيمة الإيقاف. ولكن المنمذج يعمل - إلى حدما - بسرعة مع بيانات من هذا الحجم؛ 
لذا ننصح بملازمة الافتراض. 

إن المنمذج يسمح لك باستعمال أربع نوى مختلفة - دالة القاعدة الشعاعية 
(18817). والدالة المتعدد الحدودء والدالة السينية» والدالة الخطية. وإن النوى الخطية 
لا تسقط البيانات إلى حيز عالي الأبعاد؛ فإذا تناسب ذلك جيداًء فسيكون لديك فقط 
بيانات لا تحتاج إلى أن ترسم إلى حيز سمة ليتم تصنيفها. أما النوى الأخرى. فلديها 
كلها مواطن قوتهاء ونقترح أن تجرب كَل واحدة على حدة: بالإضافة إلى قيم مختلفة 
من معالمات النموذج» قصد الحصول على أفضل فاصل دون إفراط في التناسب. 


١/0‏ 011014_003م 
| :4000 )0 ةمزالا 






١/0‏ 6 :011014_004م 
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1001301 أذواا 1011| أقدعا 


الشكل رقم 12.9: أهمية المتنبئ في آلة متجهة الدعم في منمذج الحزمة الإحصائية 
للعلوم الاجتماعية. الهدف: فوز أوباما. 
وبمجرد اختيارك نواة ماء عندئذٍ يكون الوقت قد حان لضبط مَعلمات النموذج؛ 


2014 


ويكون بإمكانك وضع معلم الضبط ل) » ودقة الانحدار (إيبسيلون) (مه1زوم8) 
بالنسبة إلى أي نوع من أنواع النواة الأربع. وأما دقة الانحدار» فلا تهم إلا نمذجة 
نتائج مستمرة (حيث المنمذج يؤدي انحدار آلة متجهة الدعم)؛ فهي تخبر النموذج 
عن حجم الخطأ المقبول» في حين يعد معلم الضبط ل 0» استتباعيا بالنسبة إلى 
المقايضة بين الدقة في بيانات التدريب والإفراط في التناسب. وتنجم عن القيم العليا 
ل تصنيفاً © أكثر دقة» ولكن بإمكانها تقليص قدرة النموذج على التعميم لتشمل 
بيانات الاختبار. أما بالنسبة إلى دالة القاعدة الشعاعية» والدالة متعددة الحدود. 
والدالة السينية» فهناك أيضاً مَعْلم «غاما». ومثلها في ذلك مثل ©» تنجم عن القيم 
العليا مزيداً من الدقة على حساب إفراط تناسبى مفترض. وإذا اخترنا النواة المتعددة 
الحدودء فيمكئنا ضبط درجة النواة المي الحدود (الفرضية هي 3). وأخيراء 
يمكن للشخص وضع معلم متحيز ممائل لمتغير ثابت في الانحدار بالنسبة إلى كُل 
من النوى المتعددة الحدود. والنوى السينية. 


أى مر هذه الاعدادات يجب وضعها؟ يقدم اليرنا ض الارشادات» ولك: 
ي من 2 يجب و يعدم البربامج بعص ار و 


ضمء هذه المعلمات» ل . الصعب الادلاء برأى قبا, الحدث. 
صضمن 2 من ب آفى براي فب و 
للباحث فقط أن يجرب مع إعدادات مختلفة ويختار الإعدادات الأمثل. 


قم بتشغيل برنامجك عبر نقر «تشغيل». تظهر «كتلة صلبة» وهي العقدة التي 
تحتوي نتائج النموذج الذي قمت بتشغيله. ولسوء الحظء لا يتوافر جزء كامل من 
حيث المخرج انطلاقاً من آلة متجهة دعم في المنمذج. وإذا انتقيت «احسب أهمية 
المتنبىع») (ع01]826م122 2016601 6غ]18ناء021)) فى «جدولة حلل» (196 4131/26) 
داخل نافذة آلة متجهة الدعم. فسيتم عرض المتغيرات المختلفة مساهمات في 
الفاصل ( الشكل رقم 12.9). 

وما نلاحظه هنا هو أن المتغير الأهم في تنبؤ أصوات أوباماء يتمثل في نسبة 
المحافظات من البيض غير الإسبانيين. وبعد هذاء وفي انخفاض للأهمية بشكل 
سريع» نجد نسبة البروتستانت الإنجيليين» المتناسبة ب درجة باكالوريوس ماء أو 
درجة أعلى منهاء والكثافة السكانية» ونسبة 65 أو أكبر. ولا يعد المنمذج موثقا جيدا 
على نحو خاصء ولسوء الحظ. عندما يتعلق الأمر بوصف مدلول إحصائياته المولدة 


215 


(مثل أهمية المتنبئ) على وجه الدقة» أو كيف يتم حسابهاء ولكن المعاني حدسية 
نوعامنا: 





الشكل رقم 13.9: مخرج آلة متجهة الدعم في منمذِج الحزمة الإحصائية للعلوم 
الاجتماعية. 
للبحث عن إحصائيات التناسبء اختر المُخرجء وانتقي «عقدة حلل» (انظر 
الشكل رقم 9). وضمن هذه العقدة. في «جدولة حلل؛)». انقر المربع الخاص 
«ابمصفوفات المصادفة». وسيمنحك هذاء النسب المئوية مصنفة بشكل صحيح في 
مجموعات بيانات التدريب والاختبار» وكذا مصفوفات الارتباك بالنسبة إلى الذين 
يمكنك استخدامها معاً لحساب حساسية النموذج؛ وخصوصيته. 
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لقد قمنا بتشغيل النماذج على بيانات انتخابات 2012 مستخدمين نوى مختلفة 
(مغيرين المَعْلمات من أجل أداء أمثل) ومن أجل أن تقوم المقارنة بعملية تشغيل 
النماذج نفسهاء باستخدام الانحدار اللوجيستي. وأشجار التقسيم (أشجار الانحدار 
والتصنيف في المنمذج)»؛ والشبكات العصبية. ولأجل مقارنة أكثر» نقوم بتشغيل 
النماذجء مستعملين بيانات متوازنة وغير متوازنة» والنتائج معروضة في الجدولين» 
رقم 4.9 و5.9. 


أما في البيانات غير المتوازنة» فتتفوق آلات متجهة الدعم بقليل من حيث الأداء 
على المصنفات الثلاثة الأخرى في بيانات التدريب. لكنها أقل أفضلية بشكل واضح 
في بيانات الاختبار. ولكن هذا لا يعني بالضرورة أن تكون النماذج مفرطة في 
التناسب. وفي نهاية المطاف. حققوا الأفضلية في مجموعة التدريب لكنها منافسة» 
وفي أغلب الأحيان أحسن في مجموعة الاختبار أيضاً. وفي هذه البيانات» فقط دوال 
النواة المتعددة الحدود هي التي تبدو مفرطة في التناسب. أما نواة دالة القاعدة 
الشعاعية» فتتفوق على كُلَ المصنفات المنافسة في بيانات الاختبار (على الرغم من 
أن ذلك لا يتم على نحو كبير). 
الجدول رقم 4.9: مقارنة أداء آلة متجهة الدعم مع المصنفات الأخرى باستخدام 
بيانات غير متوازنة. 
الدقة الدقة الحساسية الحساسية الخصوصية 
(التدريب) (الاختبار) (التدريب) (الاختبار) (الاختبار) 


نواة دالة القاعدة 108 10009 5 0 160.72 110103 
الشعاعية 
آلة متجهة 

الدعم (نواة 
الدالة المتعدد 
الحدود) 


/90.78 67.06 89.67 855.956 00 
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الدعم الخطية 
الانحدار 
اللوجيستي 

شجرة التقسيم 


الشبكة العصبية 


1211062 


2013 


120013 
121102 


60.64 34 


10025 12102 


65.50 38 
12035 52 


10106 


120.21 


12251 
2310 


013 


127 


2119 
03158 


الجدول رقم 5-9: مقارنة أداء آلة متجهة الدعم مع المصنفات الأخرى باستخدام 


نواة دالة 
القاعدة 
الشعاعية 
الدعم (نواة 
الدالة المتعدد 
الحدود) 


الدعم الخطية 
الانحدار 


اللوجيستي 


شجرة التقسيم 
الشبكة 
العصبية 


الدقة 


بيانات متوازنة. 


الدقة 


الحيايدة 


(التدريب) (الاختبار) (التدريب) 


1/83 4 


120152 


12021 


123132 


00066 


1216 


850.77 4.11 


1/1514 


121157 


12225 


6 ك1111 


1210 


218 


1644 


12121157 


051 


1264 
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الحساسية 
(الاختبار) 


2122.2 


114خ11 


122106 


12021 
1213 


12003 


الخصوصية 
(الاختبار) 


12317 


2.41 


2110 


212071 
1105 


110103 








وتتألف البيانات - بشكل غير متناسب - من نتائج سلبية» وفي هذه الحالات 
تميل المصنفات في الغالبء إلى الفشل عبر سوء تصنيف الإيجابيات. إذن» إن قياس 
حساسية النموذج (نسبة الإيجابيات المصنفة بشكل صحيح) مهم للفحص. ومن 
المهم خاصة. فحص الحساسية في مجموعة الاختبار. وهنا تبين آلات متجهة الدعم 
عن أفضليتها. وباستثناء آلة متجهة الدعم الخطية» التي لا تستغل رسم البيانات في 
حيز عالي الأبعاد. تبقى آلات متجهة الدعم أفضل من الطرق الأخرى في العثور على 
النجاحات»ء وإن آلات متجهة الدعم المفرطة في التناسبء موفقة فيها خاصة. إذن, لا 
تصنيف أمثل. ونتيجة لذلك. فإنها أقل عرضة للخطأ من خلال تخصيص معظم 
الحالات إلى الفئة الغالبة. 

وعندما نتحول إلى البيانات المتوازنة» نجد أن آلة متجهة الدعم إلى جانب نواة 
دالة القاعدة الشعاعية أفضل - نوعا ما - من الانحدار اللوجيستيء والشبكات 
العصبية من حيث الدقة العامة. ومرة أخرىء تبدو دوال آلة متجهة الدعم موسومة 
بالإفراط في التناسب قليلاً. وإن آلة متجهة الدعم لدالة قاعدة الشعاع» تفوق بقليل 
مصنفات المنافس من ناحية الحساسية» ولكن شجرة التقسيم والشبكة العصبية 
يفوقانها من حيث الحساسية. وأما مسألة عدم تفوق آلات متجهة الدعم في الأداء - 
بشكل كبير - على منافسيهاء فقد تكون تلك دالة بيانات (يمكن أن تكون قابلة 
للانفصال خطياً مع عدم منح آلات متجهة الدعم أية امتياز) أو بيانات تنفيذ خاص في 
المنمذج (وهذا ليس شيئاً مرناً خاصة. من ناحية تعديل المتغير). ومن ناحية أخرى. 
إن خوارزميات المنافس» جيدة جدا في تصنيف البيانات في العديد من الظروف. 


إننا نقترح أن يجرب الباحثون آلة متجهة الدعم في أوساط البحث في العلوم 
الاجتماعية» واستعمالها في حالات تتفوق فيها على المصنفات. وبالإمكان استخدام 
آلات متجهة الدعم لتوليد درجات الميل مثلاً. وقد يكون هذا مفيداً لغايتك» وقد لا 
يكون كذلك. وإن تطبيق منمذج آلات متجهة الدعم ليست مفيدة خاصة من ناحية 
تزويدها لنا بمعلومات عن علاقة السمات بالنتيجة» ذلك بأنها لا تخبرنا عن النموذج 
الذي تبنيه من أجل التصنيف. ولكن على العمومء إن قوة آلات متجهة الدعم الحقيقية 
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- أي قدرتها على رسم البيانات في حيز عالي الأبعاد. عبر دالة نواة - يجعلها مبهمة 
تماما. وفي هذا الصدد. فهي تشبه الشبكات العصبية؛ وإن تحويل النواة ليبس في 
الواقع علبة سوداء ولا هو شفاف. ومع ذلكء. ينبغي اسكتشاف فائدة آلاات متجهة 
الدعم بما أنها أثبتت نفسها بشكل كبيرء على أنها بارعة في تصنيف البيانات المعقدة 
في العديد من الأوساط العملية. 

أمثلة التنبؤ عبر مصنفات متنوعة 


لقد راجعنا عدداً من خوارزميات التصنيف وتم تطوير طرق أخرى عديدة (اثنتين 
منها - أشجار التقسيم والشبكات العصبية - سيتم تغطيتهما بالتفصيل في الفصول 
اللاحقة). وأكثر من ذلك أن بعض الباحثين» قد طوروا العديد من المتغيرات في كل 
طريقة على حدة. وإن الأسئلة الطبيعية التي تطرح في هذه المرحلة هي: أيهما أفضل؟ 
وأي متغير ينبغي استخدامه؟ هل هناك متغير أكثر دقة وخال من الغموض؟ وهل 
تعتمد على البيانات؟ وإن صح ذلكء فهل هناك قواعد صعبة وسريعة (أو حتى قواعد 
بديهية) لاختيار المصنف إن كنت أعرف شيئا عن البيانات؟ 


لسوء الحظء جواب كَل هذه الأسئلة المطروحة هو: النفى على الإطلاق؛ أو 
بالأحرى. كذ كريب على واف :الفا ليد لكا لجسن على قز ا البيانات في حد 
ذاتها. فقد نرى - عوضاً عن ذلك - أنه من الأفضل تصور الاختيار باعتباره مسألة 
عملية. علاوة على ذلك إن المصنف الأفضل - في بعض الأحيان - هو مسألة تتعلق 
اابالأشياء الأخرى» التي يقوم بها المصنف أثناء عملية التصنيف. سنقضيء على سبيل 
المثال» بعض الوقت في أشجار التقسيم» ليس لكونها قوية بالضرورة في مهام 
التصنيف (على الرغم من أنهم في الغالب كذلك) أو لأن نتائجها تُعمَّم جيداً على 
العينات الخارجية (على الرغم من أنها كذلك)» لكن لأن نتائجها مرنة للغاية. وتسمح 
لنا دراسة بنية الشجرة ذاتهاء التعرّف - نوعاً ما - إلى العلاقة بين التتيجة ومقاييس 
المتنبئ» كما تطلعنا على أشياء عنهاء لا يطلعنا عنها - بالضرورة - الانحدار 
اللوجيستي. ويمكن أيضاً استعمال الشبكات العصبية لمساعدتنا على فهم العلاقات 
المعقدة اللا خطية» خصوصا لمايتم دمجها مع برمجيات التصور مثل «الغامب برو). 
وعند هذه النقطة» لا يزودنا كُلّ من مصنفات ع!- أقرب الجيران» وآلات متجهة الدعم 
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بكل هذه المعلومات المتعلقة بالمتنبئات نفسها على الرغم من أنها (جدلاً) أفضل في 
بعض مهمات التصنيف المعقدة. 


ولكن ثمة جواب آخر لهذا السؤال» يتمثل في عدم ضرورة اختيار طريقة واحدة 
أفضل. وممكن جداً مزج نتائج العديد من خوارزميات التصنيف في نتيجة واحدة 
نهائية. ويبقى المشكل في القيام بهذه بطريقة تتوسل بنقاط القوة النسبية» بدلاً من 
نقاط الضعف النسبية لمختلف تقنيات التصنيف (1992 [1313/228 ,511611 ,2111). 
وقد يستطيع الشخص الحصول على تصنيف ماء أكثر قوة من أي تقنية بمفردهاء 
وذلك من خلال مزج الطرق. ولكن هذه النتيجة ليست مضمونة» وربما لا يعد هذا 
حتى الأساس المنطقي الأفضل لمزج المصنف. وثمة أساس منطقي ثانٍ. يساعد 
على مزج المصنفات على تقليص احتمال أن تؤدي النتائج التمييزية انطلاقاً من 
اختلافات أي طريقة من طرق التصنيف. إلى القرار النهائي للتصنيف. ومن الأرجح 
أن يعطي مزج المصنفات نتيجة أكثر سلاسة (572001561))» نتيجة قد تكون قادرة 
شبيهة أكثر بالتعبئة (أو بغابات عشوائية) مقارنة بالتعزيز بحسب منطقها. 

عملية مزج المصنفات في منمذِج الحزمة الإحصائية للعلوم الاجتماعية 


في منمذِج الحزمة الإحصائية للعلوم الاجتماعية» تتحقق عملية مزج المصنفات 
بسهولة عبر استعمال عقدة المصنف الذاتي. وهذه عقدة مستقلة» تسمح للمستعمل 
بانتقاء مصنفات مختلفة والمّعلمات التي تتحكم في كيفية اختيارها ومزجها. 
وباستعمال هذه العقدة» سيكون الإغراء - في الغالب - متجها ببساطة نحو استعمال 
الإعدادات الافتراضية» الخاصة بكل نوع من المصنفات المستخدمة؛ وإذ تُحذِر من 
هذاء فإننا نقترح بدلاً من ذلكء الضبط بعناية كل نموذج على حدة ليصبحوا نماذج 
مثالية قبل التصنيف. وإن استعمال أدوات التنقيب في البيانات - كما هو الحال دائما 
- بعناية وبحكمة؛ هو أمر مفضل. 


ومرة أخرى نبدأ بانتقاء بياناتنا من بيانات مسح المجتمع الأميركي التي 
نستعملها في توقع تغطية التأمين الصحي. ونتيقن - في جدولة النوع (لوحة عمليات 


251 


المجال) - من أن يخصص للمتغيرات» المستوى الصحيح للقياس» وبعدها نقسم 


وبعد انتقاء النتائج» والمتنبئ ومتغيرات التقسيم» نستمر في تأسيس مصنفاتنا. 
ونقترح بدلا من التوجه أولاً إلى جدولة النموذجء نقر «خبير»» والمضي ناحية اليمين 
لتحديد المصنفات وإعداداتهم. وإن القيام بذلك» يقدم لك شاشة كتلك المعروضة 
في الشكل رقم 14.9. ويختار لك البرنامج تلقائياً مصنفاً من أصل ثمانٍ مصنفات. 
بحيث يكون لكل واحد إعداداته الافتراضية. وستحتاج إلى تحرير هذه الشاشة لضم 
النماذج التي تريد. ومن المهم ملاحظة بضعة أشياء ينبغي أن توجه هذا القرار. 

أولاً: يمكنك الحصول على نسخ متعددة لمصنف واحدء كُل بإعدادات معلم 
مختلفة. هل تعذر عليك البتَ في ما إذا كنت تريد آلة متجهة الدعم ذات دالة قاعدة 
شعاعية أو نواة سينية؟ لا بأس - قم بضم كُلَ واحدة منها. وبإمكانك البتّ فيما إذا 
كنت تريد ضم كَل النتائج أو فقط الأفضل منهاء في تنبؤك النهائي. 

ثانياً: تذكر أن مزيداً من النماذج» يعني معالجة بيانات أكثر. وهذا يعني - بدوره 
- بكل تأكيد مزيداً من الوقت؛ كما يعني أيضاً - ولسوء الحظ - احتمالية أكبر 
لتجميد البرنامج أو انهياره. ويستحسن القيام بتجربة بسيطة حول هذا قبل تجريب كل 
شيء دفعة واحدة. وهذه أيضاً فائدة من فوائد خوض التجربة مسبقاً مع نماذج فردية 
بشكل عرضي. 

سنقوم بانتقاء خمس نماذج - الانحدار اللوجيستي», وع!-أقرب الجيران» وآلة 
متجهة الدعم وشجرة تقسيم واحدة (وتسمى هنا شجرة +04:1)) - وبتعديل إعدادات 
كُلٌ واحد منها. وسنعود الآن إلى جدولة النموذج ( الشكل رقم 15.9) والقيام بتعديل 
القواعد لمزج النتائج. 
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الشكل رقم 14.9: انتقاء المصنفات من أجل الأمثلة» باستخدام عقدة المصنف 
الذاتي في منمذِج الحزمة الإحصائية للعلوم الاجتماعية. 


أولاً: قم بانتقاء عدد النماذج التي ترغب في استعمالهاء وإن كنت بصدد بناء عدد 
كبير من النماذج فسيكون بعضها - على ما يبدو - غير دقيق؛ وقد لا تريد استعمالها. 
ونحدد مجال «عدد النماذج التي نريد استعمالها» في 4) مما يعني أننا سنسقط نتائج 
نموذج واحد. ونرتب بحسب الدقة العامة (أما الاختيار الآخرء فيتجلى في عدد 
المجالات) لكي نحافظ على أربع نماذج أكثر دقة» فضلاً عن ذلكء نختار الترتيب 
حسب الدقة في جزء الاختبار بدلا من مجموعة التدريب حتى يكون بإمكاننا انتقاء 
مزج النماذج التي تعمم بشكل أفضل على البيانات الخارجية. 

ولكن كيف يمكننا تحديد النموذج الأكثر دقة؟ هذا يتوقف على إعدادات 
التكاليف والعائدات والترجيح. وإن كُلّ ترصد أو سجل «يكلف» النموذج قدراً معيناً 
من محاولة التصنيف. ويكافئ النموذج «بالعائدات» إن حصل على التصنيف 
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الصحيح. وفي الأخير» يمكن تحديد متغير ترجيح ماء مما يمنح أهمية أكثر لتصنيف 
بعض الحالات عوضاً عن أخرى. على سبيل المثال» تلك التي «تمثل» أشخاصاً 
عديدة في ساكنة ما بدلاً من عدد قليل من الأشخاص ا 


5 :افانععت عط مأ كاع1700 أن /عطوه لعاه اودع 
النييا 


امناناءدم أمء1 © 00قهدم ودم1 © ودكنا خاع500 اكه | 


8ه _ ]| عكن ها كاع امم )6 #عتااصنااة ١‏ 


عععاممم /مأعقعىم عاصار عله /ا 
(حاموس وها عذا لزه شوم واوقات وو | 


حصرهة 18ظك_ل أمسوة 





الشكل رقم 15.9: وضع مَعْلمات تحديد الدقة في المصنف الذاتي. 


وفي جدولة الطرح (115810): يمكن للشخص اختيار طابق من أجل إدراج 
النموذج. وهذا يعني أن النماذج التي تفشل في الحصول على حدّ أدنى معين من 
مستوى دقة» اختاره الباحث» ستطرح وإن كانت من أفضل النماذج. وفي الواقع؛ 
يمكن للشخص اختيار طوابق مختلفة - مثل نسبة الدقة أو الفائدة الإجمالية» أو 
المساحة تحت منحنى خاصية التشغيل المتلقي (©110). ونفضل حذف فقط حالات 
غير مناسبة بشكل جيد جدآء حيث الدقة أقل من 60/» والمساحة تتحث متحتى 
خاصية التشغيل المتلقي (©806) أقل من 0.65. 
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وأخيراًء قم باختيار الطريقة لمزج «الأصوات» من نماذج مختلفة (جدولة 
الإعدادات؛ الشكل رقم 16.9). وتذكر أن النماذج لا تحسب فقط فئة متنبئة لكل 
حالة» بل أيضا ثقة في هذا التصنيف. وبعدهاء يمكن للشخص تبني النموذج ذي الثقة 
العالية لكُلَ حالة؛ أو يمكن للبرنامج القيام بتصويت أغلبية بسيطة» أو يمكنه أن يؤدي 
تصويتاً مرجح الثقة. واعتبر هذا شبيهاً بإجراء التصويت في تصئيف ع!-أقرب 
الجيران. ويمكن للتصويت أن يطرح إشكالية إذا كان هناك عدد زوجي من النماذج» 
التي ستفصح عن القرار» ولكن المنمذج هناء يقدم اختياراً بشأن ما يمكن القيام به في 
حالة تعادل اختيار عشوائي أو ثقة أعلى. ونفضل استعمال تصويت الثقة المرجحة. 

ويشغل النموذج كلا من النماذج الخمسة قيد البحث وحوسبة دقة كُلّ واحد 
منهاء ثم يطرح الأقل دقة؛ الذي كان في هذه الحالة الانحدار اللوجيستي. وبعد ذلك» 
يأخذ القيم المتنبأة بالنسبة إلى مجموعتي الاختبار والتدريب» من كَل النماذج 
المتبقية» ويمزجها من خلال منح كُلٌ واحد منها صوتاً مرجحاً لثقة النموذج المقدرة. 
ويسفر إجراء المزج على مجموعة جديدة من قيم متوقعة» تعد بالأساس التخمينات 


الأفضل من أصل أفضل أربع نماذج. 


ٍ 
3 عممة كوعدا نا 

















الشكل رقم 16.9: اختيار الطرق من أجل مزج متنبئات من مصنفات متعددة. 
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الجدول رقم 9 مقارنة أداء تمازجات مؤمثلة للمصنفات مع المصنفات الفردية. 


الدقة الدقة ‏ الحساسية الحساسية 


الانحدار اللوجيستى   /72.19‏ 73.06 1773.91 72.27/ 
1- أقرب الجيران 004 0 725323 2.76 7/7 72.7 


آلة متجهة الدعم 60 770 7/4.90 72.02 
الشبكة العصبية 75200103 2  /76.16‏ 71.52 
شجرة التقسيم 55 773.190 775.61 70.95/ 

مصنفات المزيج 11 110 55200 75.458 

المصنفات الممزوجة ر : : : 
تالمع انا التعالمة سبلقا ١14‏ 76.67 776.98 6.311/ 


وكما يشير الجدول رقم 6.9 إلى ذلك. إن مزج المصنفات يتفوق بالفعل من 
حيث الأداء» على روتينيات التصنيف الفردي. علاوة على ذلك يتفوق هذا المزج 
على جميع المصنفات الفردية على مستوى بيانات التدريب والاختبار» وتقوم بذلك 
في الوقت الذي تحقق فيه التوازن بين تصنيف الإيجابيات الصادقة والسلبيات 
الصادقة بشكل صحيح. وتوضح هذه النتائج وجود شيء يكتسب عبر مزج 
المصنفات» طالما أن الشخص يقوم بذلك بعناية. وبالنتيجة» على الأرجح أن يقوم 
مزج خمس نماذج سيئة بأداء أسوء من أي نموذج جيد (على رغم من أنه قد يقوم بأداء 
أفضل من كُلَ النماذج الخمسة من تلقاء نفسها). ومن ناحية أخرىء ليس التحسن 
مثيراً في هذه الحالة» على الرغم من أنه ملحوظ. وثمة سببان وراء هذا. 

أولاً: إن كلا من النماذج الفردية تعمل - سلفاً - عملاً جيداً (وخذ بعين الاعتبار 
أن التخمين العشوائي قد يؤدي إلى 50/ من نسبة الخطأ في هذه الحالة). 


ثانياً: إننا نستخدم متغيرات متنبئ كبير - إلى حدّ ما - في هذا النموذج (المنطقة» 
والعمرء ووضع سوق الشغلء» ودخل الأسرة» والجنوسة» والعرق» والمواطنة 
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والحضور المدرسيء والحالة الاجتماعية)؟ فمتنبئاتنا لا تقدم - ببساطة - للمصنف 
مادة خاماً من أجل تنبؤ أفضل. وهذه نقطة مهمة تسجل؛ فالتنقيب في البيانات طريقة 
ذكية للرفع من القوة الحسابية الخام» ولكنه ليس حلا في حدٌ ذاته للبيانات الرديئة» أو 
المعلومات غير الكافية» أو الخطأ في القياس. كما يمكن للتنقيب في البيانات» 
تحسين التنبؤ حتى مع البيانات الرديئة» لكن الطريقة الأفضل لتحسين التنبؤ تبقى 
نفسها ما دام أنها كانت في القرن العشرين - الحصول على بيانات أفضل . 


ولكن يمكننا - في الحقيقة - القيام بأفضل من هذا عبر تزويد كُلُ من المصنفات» 
ببعض المتغيرات التي قد سبق أن حسناها. (انظر الجدول رقم 6.9 مجددا). ونتوسل 
هنا بمتغيرات الورقة (التي تمت مناقشتها مسبقاء تحت استخدام أشجار التقسيم 
لدراسة التفاعلات؛ وكذا الدخلء والمجموعات العمرية» التي تم توليدها منهاء من 
شجرة التصنيف المستخدمة من قبل لتوليد تفاعلات معقدة. ومن خلال استخدام 
هذه المتغيرات» وتلك التي كنا نستعملها في السابقء نكون قادرين على الدفع نحو 
تحقيق الدقة التنبؤية. وهذا مثير للاهتمام لأننا استخدمنا شجرة التصنيف كواحدة من 
نماذج التكوينء» ونظريا كان بالإمكان إيجاد ليس فقط المجموعات التي ولدِن من 
شجرة التقسيم الصغيرة» وإنما مزيدأ من مجموعات ذات دقة متناهية. ومع ذلكء إن 
تغذية الخوارزمية بأكملها من هذه المجموعات. يحسن من قوة تنبؤية عامة. 
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(لفصل (العاش 
أشجارا لتصنيف 


إن شجرة التصنيف - كما طورها بريمان (21 ]© 1916112313) (1983). (المعروفة 
أيضاً باسم شجرة الانحدار (0411).: أو مربع كاي للكشف عن التفاعل التلقائي 
(01141): أو شجرة القرارء أو شجرة التقسيم) - هي بطرق ماء أداة التنقيب في 
البيانات النموذجية: بسيطة. وفعالة» وكثيفة الحوسبة» ولا معلمية» وتعتمد على 
البيانات» بشكل مطلق؛ فهى أولاً وقبل كُلّ شىء» مصنف. تستعمل خصائص المدخل 
لخلق نموذج يقسم الحالات إلى الفئات ذات قيم مختلفة على مستوى نتيجة ذات 
أهمية. ولا يهم إن كان متغير النتيجة أو متغيرات المدخل ثنائية» أو فئوية» أو مستمرة؛ 
فبإمكان شجرة التقسيم معالجتها بأكملهاء والتعامل معها بالطريقة نفسها تقريباً. ومع 
ذلك. تكون أشجار التقسيم أكثر بساطة لدى استعمالها بنتيجة ثنائية» لذا سنركز 
عليها. 

تتوافر أشجار التقسيم (15665 83111]102) - باعتبارها مصنفات - على ميزتين 
إضافيتين مقارنة مع أدوات تقليدية من قبيل الانحدار اللوجيستي؛ فهي: 

أولّا: موجهة نحو تنبؤ متغير النتيجة» بدلاً من تقدير المَعْلمات بدقة بالنسبة إلى 

ثانياً: إنها غير مقيدة لتقدير متوسط العلائق؛ بل بدلاً من ذلك» طورت مجموعة 
جداً معقدة ومتحددة من قرازات التصنيف التق تعمل بشكل مختلف:يشأن الأجزاء 
المختلفة من البيانات. ْ 
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كيف تعمل أشجار التقسيم؟ إنها تشرع في الاشتغال على كُل البيانات» وتركز 
على متغير النتيجة المحدد من لدن الياحث. ويحدد الباحث أشي مجموعة من 
متغيرات المتنبأ المفيدة احتمال» في مهمة التصنيف. وتقسم شجرة التقسيم العينة 
عند كُل قيمة لكُلَ متغير مدخل. وفي كُل مرة» تحسب مدى كفء هذا التقسيم في 
فصل حالات بين فئات مختلفة من فئات متغير النتيجة؛ إذ تختار المتغير والقسمة 
الذين قاما بأداء جيد فى مهمة الفصل هذه. مخلفة مجموعتين فرعيتين (أو عقد 
منحدرة) (210065, 00 أكثر ايا من العينة ككل (العقدة الجذر) 
(710465 006). وتتكرر العملية في كُل عقدة من العقد المنحدرة, لتنتج أربع 
مجموعات. ثم تتكرر في منحدراتهاء وهكذا. وتستمر أشجار التصنيف على هذا 
النحو إلى غاية التصول على مجموعات متجانسة من الولاحظات المتجاسة ثماما 
أو بلوغ نقطة توقف معينة. 

ويعد هذا الإجراء شبيهاً بنتائج متعددة الفئات. وفي هذه الحالة» تحاول شجرة 
التقسيم أن تقسم ا ا 0 
نهاية المطاف - مع الأخذ بعين الاعتبار قدراً كافياً من التقسيمات - أنها ستنتج ج عقداً 
ار ا ا 01 
تحقيق هذه الغاية» ولكن ليس من المرجح أن تنتج عقدة متجانسة بشكل مثالي. 
والأمر نفسه ينطبق - بطبيعة الحال - على نتائج ثنائية أيضا. 

أما بالنسبة إلى النتائج المستمرة» فلا يمكن للإجراء تقسيم الحالات إلى فئات 
متجانسة» بل ينتج - عوضا عن ذلك - مجموعات فرعية» حيث قيم متغير النتيجة 
متماثلة قدر الإمكان (مما ينتج تباينات كبيرة في المعدلات عبر مجموعات فرعية). 
وهكذا - مع الأخذ بعين الاعتبار تقسيمات متعاقبة - يخلق الإجراء مجموعات 
فرعية من البيانات حيث التباين على مستوى المتغير التابع مقلص بشكل كبير. 

ويما أن الأشجار تعتمد كثيراً على البيانات» فإنها تناقض بشكل كبير التقئيات 
الإحصائية الكلاسيكية التي تولي الأولوية لاختبار الفرضية. وإن طريقة الشجرة: لا 
ل ا ا ل ا ا 
نتيجة «ذا دلالة»» شبكة متنبئات أخرى. ولهذا السببء استقبل مجتمع العلوم الإنسانية 
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أشجار التقسيم بفتور في يق الأحوال. (انظر مشلا رودجير وآخرين 
(2009 وع05 لص ككرعء177 :2004 .21 اع زعم 101) . وتستخدم الأشجار على نحو 


واسع في ميادين من قبيل علم الأوبئة» والنمذجة الإيكولوجية. 
وتعد الأشجار قيمة بالنسبة إلى الباحثين لأسباب ثلاث على الأقل؛ فهى: 


أولاً: على ما يبدو أفضل في إنتاج تنبؤات دقيقة من الانحداراتء مثلاً. وإذا ما 
زودت ببيانات كافية ومتغيرات مستقلة كافية» فستنج نموذجاً أكثر تناسباً. 


ثانياً: فيتمثل في عدم وجود أي حدود بشأن عدد المتغيرات المستقلة التي يمكن 


ثالثاً: وكما فصلنا القول فى ذلك سابقاً - يتمثل فى كون أشجار التصنيف جيدة 
للغاية في إيجاد التفاعلات والعلاقات اللا خطية. ويمكن لنماذج الانحدار فقط 
التعامل مع الأشكال اللا خطية فقط إذا كانت محددة مسبقا من لدن الباحث» وتميل 
التفاعلات فى الانحدار إلى الانحصار فى متغيرين أو ثلاثة على الأكثر. فى المقابل» 
تولد أشجار التقسيم تفاعلات معقدة آلا ومن ثم فهي أداة قوية ف البحث 
الاستكشافي. 


وتتدفق إحدى عيوب أشجار التقسيم مباشرة من رحم نقاط القوة هذه إذ عبر 
مرونتها وعقدتهاء تتمكن الأشجار من توليد نموذج تنبؤي أكثر دقة. ولكن الشجر 
التى نشأت داخل مجموعة بيانات كبيرة» وتستعمل العديد من المتغيرات» ستكون 
بالصوور كيرة ومعقده مما يسعل التأويل كي صعرة توعا مادنوها كه الشجمرة 
من قوة التمبيز أو التنبؤ تخسره في التقتير. 

عندما تشرف أشجار التقسيم على نهايتهاء تواصل تقسيم البيانات حتى لا يتبقى 
منها سوى عقد طرفية (1100©85 [7128ع1) (أو «أوراق») متجانسة جداء مع وجود 
حالات أو ترصدات قليلة جداً في كل واحدة منها. ومع ذلكء يمكن للباحث تحديد 
قاعدة توقف لمنع هذا التطور. مثلآء يمكن تحديد حجم أدنى للقسمة. وعلي 
فالشجرة لا تقسم عقدة ما إذا كان لأي من العقد الناتجة أقل من عدد معين من 
الحالات. إن قواعد التوقف مهمة., لأن هدفنا - عادة - ليس ببساطة تصنيف البيانات 
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الخاصة التي حصل أن فحصناهاء وإنما تطوير نموذج يتنبأ جيداً على العموم. ولكن. 
حتى مع وجود قواعد التوقف في مكانهاء تواجه شجرة التقسيم خطرا كبيرا من 
الإفراط في تناسب النموذج - منتجة نموذجاً متأثراً بشكل مبالغ فيه بخصوصيات 
البيانات التي بنيت معهاء والتي لها صلاحية خخارجية قليلة. وللاحتراز من الإفراط في 
التناسبية واختباره» ينبغي أداء الصلاحية المتبادلة» وعندما يتم أداء الكابح العشوائي 
تستخدم بيانات التدريب لبناء شجرة ماء وتسقط بيانات الاختبار آنذاك من الشجرة. 
وإذا كانت البيانات منقسمة إلى ثلاثة أجزاء. فإن مجموعة التدريب تستعمل لزرع 
شجرة ماء وبعدئذٍ معايرتها أو موالفتها بدقة باستخدام مجموعة الصلاحية. وتّزال 
(تُشذب) الفروع التي تساهم في عملية الإفراط في التناسبية خاصة» داخل مجموعة 
الصلاحية» مخلفاً نموذجاً يقبل التعميم على الأرجح. وأخيراًء تسقط مجموعة 
الاختبار الشجرة الموالفة» موالفة دقيقة من أجل اختبار مستقل لدقة النموذج. وبدلاً 
من ذلكء يمكن أداء الصلاحية المتبادلة لطية ع1-. 


مثل في الغامب برو 

ظلت أشجار التقسيم حاضرة لفترة لا يستهان بهاء وخرّرت روتينيات بالنسبة ل 
ل ومنمذِج الحزمة الإحصائية للعلوم الاجتماعية» والحزمة الإحصائية للعلوم 
الاجتماعية» والستاتاء والماتلاب من بين حزمات برمجية أخرى. وسنعرض الأشجار 
مستخدمين روتين تقسيم الغامب بروء الذي نستحسنه لسهولة استخدامه. ومرونته. 
وجودة التصور الذي يقدمه. 

سنبين عملية أشجار التصنيف. مستخدمين بيانات من مسح المجتمع الأميركي. 
وانتقينا عينة فرعية من هذه البيانات التي تحتوي فقط على بالغين تتراوح أعمارهم ما 
بين 65-25 سنة» وسبق لهم الزواج مرة واحدة على الأقل. وضمن هذه المجموعة. 
قمنا بمعاينة مفرطة بشكل ملحوظ لتشمل أفراداً سبق لهم الزواج ثلاث مرات أو 
أكثر. سنستخدم أشجاراً لفصل هؤلاء المتزوجين عن غيرهم في البيانات. 

ونفتتح منصة ضبط التقسيم (الشكل رقم 1.10) بانتقاء #حلل التقسيم المنمذج". 
ونختار كجواب (ويسمى المجال «ل»». جواب) متغيرا وهميا مشفرا 1» إذا تزوج 
شخص ماثلاث مرات أو أكثر و0 إذا كان الأمر عكس ذلك. وبعدها نختار مجموعة 
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من المتنبئات (المجال 220؛ عامل): السنْء مجموع الدخل الفرديء التحصيل 
العلمي» والعرق. والمكانة المهنية» والجنوسة» ومنطقة البلاد» والجنسية/ مكان 
الولادة (مواطن أميركي بالولادة» أو أميركي مجنسء أو غير مواطن). 

وأخيراً: نختار جزءاً من البيانات لاستبقائها من أجل التثبت من النموذج. ولدينا 
العديد من الحالات هنا - أكثر من 100.000 - لذا لسنا مطالبين باستخدام الصلاحية 
المتبادلة لطية !- (على الرغم من عدم وجود أي مانع مبدثياً يمنعنا من القيام بذلك). 
وبدلا من ذلك. نحدد حصة الصلاحية في 0.33» مما يبقي على ثلث البيانات من 
لوجر ا الأصده شا نافت 


أ 1١077121‏ 001101701 |« وتعطي] | 
ع هد كا ” مسح الصو ]| 


الم دن امكف ١‏ 


2 © اسسهها 3 








ننقر «موافق») (©016). 000010 ثم سنقوم 270 
سئراه. ونريد إيجاد النسبة الرقمية للحالات في كُل عقدة موجودة في كُل فئة من 
النتيجة (1 أو 0). إذن ننتقي من القائمة (المثلث الأحمر) في الركن الأعلى على 
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اليمين «أظهر الخيارات») (1055ام0 :183م15). و«أظهر احتمالية التقسيم). ويبين لنا 
هذا أن 114.528 من حالاتنا كلها موجودة فى عقدة وحيدة (عقدة الجذر) وأن 41.8 
بالعنانة امتغدوي الزواح» (الذكر أننا ومنعةا من معارنة هذه المسجمرعة خين لا بكي 
معاملات التناسب كميات السكان). وإننا الآن على أتم الاستعداد للقيام بأول تقسيم 
للبيانات» بنقر الزر الذي يقول «قسّم)». 

لقد قسمت شجرة التقسيم البيانات إلى عقدتين اثنتين (الشكل رقم 2.10)؛ 
بحيث تضم العقدة؛ إلى اليسار» فقط الأشخاص ممن تصل أعمارهم 43 عاماً أو فما 
فوق. وأما العقدة الأخرىء فتحتوي على أشخاص أصغر من 43 عاما. وفي هذا 
المثال» فقط عقدة واحدة من العقد الناتجة (العقدة الموجودة على اليمين) تعد أكثر 
تجانساً من منتجها. أما العقدة الأخرىء فهي أقل تجانساً. ولكن على العموم - وعلى 
مستوى العقدتين معاً - تم رفع التجانس (أو بلغة الأشجار تم تقليص الأنتروبي 


.اس مم 


(إم1820)) وهذا ما يحاول الإجراء تحقيقه. 

وإذا ما أردنا معرفة مكان تقسيم عقدة ما لاحقا فإننا ننقر المثلث بجانب 
المرشحين (0800102165) في أسفل كُلّ عقدة. ويظهر هذا إحصاء القيمة الخوارزمية 
لكل متغير (أي إن قيمة أو مستوى هذا المتغير الذي يقسم البيانات بشكل أفضل). 
وسيختار الغامب برو المتغير ذا أكبر إحصاء للقيمة الخوارزمية. وهذه السمة مفيدة» 
لأنها تسمح لنا بمقارنة متغيرات في كُلَ مرحلة» مشيرة إلى الأجدى منها في تصنيف 
البيانات. 

بعد أن تم إنجاز المزيد من التقسيمات لبعض الشيء. أضحت لدينا صورة 
أفضل نوعاً ماء مما يميز متعددي الزواج. ونتبع أولاً الفرع الأيسر (الشكل رقم 
0 ؛» الذي يجد مزيداً من الفرق من بين أولئتك الذين تبلغ أعمارهم 43 سنة أو 
أكثر. ويتم التقسيم الأول في هذه المجموعة: استنادا إلى الميلاد (المتغير 1]2©)) مع 
أخذ بعين الاعتبار احتمال زواج الأميركيين الأصليين» بنسبة الضعف أو ثلاث مرات 
أو أكثر من ذلكء مقارنة بالمهاجرين (بصرف النظر عن وضعية مواطنة المهاجر). 
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الشكل رقم 2.10: التقسيم الأول للبيانات باستخدام شجرة التقسيم للغامب برو. 


كما ينقسم النموذج من حيث التحصيل العلمي: بين المزدادين الأصليين. أما 
الأفراد الخاصلين على الباكالوريوسس قلديهم غدل أقل بشكل ملموظ من الزواج 
المتعدد» من زملائهم الاقل تأهيلا. وتم تقسيم من التقسيمات حسب العرق من بين 
المهاجرين؛ وأما الآسيويين» فيبدو أنهم من غير المرجح أن يتزوجوا عدة مرات 
نشكل خخاص. 

وباتباع الفرع الموجود على الجانب الأيمن (الشكل رقم 4.10))» الذي يحدث 
تقسيماً بين الأشخاص الأقل ستاً من 43 عاماًء ننجد قسمة أخرى حسب العمر عند 35 
عدة مرات (وتذكر أننا وسعنا بشكل ملحوظ من عينة المتزوجين ثلاث مرات). ومن 
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ضمن أولئك الذين تتراوح أعمارهم ما بين 42-35 تقسم الشجرة مجدداً حسب 
التحصيل العلمى؛ ومرةً أخرى ليس مرجحاً المشاركة فى ثلاث زيجات أو أكثر. 
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الشكل رقم 3.10: اتباع الفرع الموجود على الجهة اليسرى لشجرة تقسيم ما (الغامب برو). 
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الشكل رقم 4.10: اتباع الفرع الموجود على الجهة اليمنى لشجرة تقسيم ما (الغامب برو). 


2066 





8-5 





0 20 40 60 50 10 120 14 


كأأام؟ أه )ع لصنلا 
0 15 088 000أ10اه/ا 
5-0 15 لاط ات و اراك 125 ه43 
ممناامااء0 مملاقةنادلا وملمام؟ - عتعوءانا 


(0)آاوما/(ا000)عةاوما-1 0.1887 2 02003 501 اماع 
((4)2/0((/)0-1)0(4)2/0((ا0(/)000))-1) 203043 03207 عنوبوكة لعدزاهعوع6 


0/([زام)وه- 5 05508 2 05436 م وما- ودعاا 
0/*(زام-[زا/)5 ١‏ 04334 04305 81/15 
0/اازام انرا 03738 2 03708 0 كطمق مقعا/ا 
0/0الام [زام) 5 02946 02883 826 متام أككداءدآاا 
١ 114298 56301 6‏ 
1 3ام! موأوركده) ك 
0 امهعم 1660مع,م اقلعم 
1 0 مماسضاما 1 6 ومتطام7 
8716١‏ 24183 1 27 0) 17261 49247 0 
١‏ 15533 7869 1) 32104 15686 1 


الشكل رقم 5.10: مخرج شجرة التقسيم في الغامب برو. 


إن «الغامب برو» يحسب أيضاً إحصاء تناسبى مشغلء الذي يسميه 12. وفى 
الواقع» هذا هو شبه مربع مكفادين (5©100-152م 81017200605) الذي يُظهر مدى 
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تحسن النموذج الحالي مقارنة بالنموذج الصفري أو عقدة الجذر. وفي هذه النقطة» 
ارتفع القياس إلى 1380. في بيانات التدريب» و0.135 في بيانات الصلاحية. 


ولدينا هنا حالات عديدة في كل عقدة» ويمكننا مواصلة القيام بتقسيمات فردية 
إن كنا نرغب في ذلك. ولكن بدلا من كُل هذاء سوف نتتقل بسرعة إلى الأمام؛ وننشأ 
الشجرة برمتهاء وذلك بنقر «انطلق». 

لقد أنشأ «الغامب برو» شجرة» ويمكن أن نلاحظ (الشكل رقم 5.10) تقسيمه 
للبيانات إلى 116 مرة» وهذاء دفع شبه مربع «مكفادين» إلى بلوغ 0.189. في مجموعة 
الصلاحية. ويظهر لنا «الغامب برو» تاريخ التقسيم على مستوى تناسب النموذج. 
ويظهر هذا منحنيات تحسن متفرقة بالنسبة إلى مجموعة التدريب وإن خط التدريب 
أعلى قليلاً من خط الصلاحية» لأن القوة التنبؤية هي دائماً أعلى من مجموعة 
التدريب. ولاحظ أيضاً أنه على الرغم من أن هذين المنحيين قريبين جداًء فإن الحجم 
الصَّرف لمجموعة البيانات مقارنة بعدد السمات». ضمن عدم وقوعنا في الإفراط في 
التناسب بقدر كبير جداً. وتظهر هذه النافذة أيضاً التصحيحات بالنسبة إلى الإفراط 
فى التناسب. ولاحظ الخط الأسود العمودي فى 116» الذي هو عدد التقسيمات فى 
الشجرة الأخيرة. وتم إيقاف الشجرة هناء لأن صلاحية 82 أعلى مما كان؛ بعشر 
تقسيمات إضافية. وبعبارة أخرىء أنجز «الغامب برو» هذه التقسيمات العشر 
الإضافية» ثم حيب ال182» فاختار الشجرة الأصغر من خلال تشذيب الشجرة الأكبر 
من أجل تنبؤ مثالي في مجموعة الصلاحية. 

للحصول على مزيد من قياسات التناسب. ننقر المثلث الأحمر بجانب «تقسيم 
المتزوجين ثلاث مرات)2». ثم ننقر «أظهر تفاصيل التناسب» (1019115 116 /5018). 
وضمن «تفاصيل التناسب»» يمنحنا «الغامب» عددا من الإحصائيات» بمساعدة 
الصيغ التي يستخدمها لحسب هذه الإحصائيات. ويوفر صيغتين من 87 التي يسميها 
«أنتروبي 17 و1 المعممة» (صيغ مكفادين» وكوكس (<00))» وسنيل (52611) على 
التوالي»» كما يوفر أيضاً متوسط خطأ الجذر التربيعي. ومتوسط الانحراف المطلق. 
ومعدل سوء التصنيف. 


هذا منبر جيد للإشارة إلى مدى بت أشجار التقسيم في «الصنف» التي ينبغي أن 
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تنتمي إليه حالة ما. لقد سبق أن ناقشنا كيف أن خوارزمية التقسيم ستنشأ شجرة ما إلى 
حين بلوغ نقطة توقف ماء مما سينتج مجموعة من العقد النهائية (أو «الأوراق'». التي 
يحتوي جميعها على حالات من كلا صنفي النتيجة. وأما صنف عضوية المتنبأ بى 
فق اليخا فيه وساظة عي لصحيف كل تخالة» بطفتها سين إلى طح لعي لعالية 
الحالات التي في عقدتها النهائية. وإن نسبة سوء التصنيف هي ببساطة قياس لنسبة 
الحالات غير الصحيحة المعينة من قبل هذا الإجراء. 


يسمح «الغامب برو؛ أيضاً للباحث بإنتاج منحنيات خاصية التشغيل المتلقي 
(100). وهي وسائل مفيدة خاصة لتقييم أداء مصنف ماء مثل شجرة التقسيم 
(الشكل رقم 6.10). فهي تقوم بتخطيط الحساسية أو (معدل الإيجابية الصادقة) 
بواسطة -1 خصوصية (أو معدل الإيجابية الكاذبة)» مبينين بذلك مدى جودة النموذج 
عموماً فيما يخص تنبؤ الصنف الذي تندرج ضمنه الحالات20. وإن المنطقة أسفل 
منحنى خاصية التشغيل المتلقى (150)0)) هى مقياس ممتاز للدقة التنبؤية: منطقة من 
5 تخبرنا عن أن النموذج ليس أفضل في التصنيف من تخمين عشوائي» كما تشير 
القيم العالية إلى درجة النسبة التي ساعد فيها النموذج في التصنيف. 

يقدم لنا كُلّ ذلك فكرة جيدة جداً عن مدى تناسب النموذج للبيانات. ولكن ماذا 
يمكن للشجرة إخبارنا بشأن متغيرات المتنبىع؟ فى هذه المرحلة» نواجه مقايضة بين 
الدقة التنبؤية» وقابلية التأويل السهلة. لقد أنشأنا شجرة» صنفت بشكل صحيح حوالي 
0 من الحالات في مجموعة البيانات» وهذا تحسن ملموس بشأن التخمين 


(1) إن الطريقة التي نقرأ بها منحنى... هي كالتالي: تصور أن حالات مرتبة من اليسار إلى اليمين ترتيباً يوافق 
الاحتمال المتنبأ لنتيجة ماء كما تم إنتاجه من قبل نموذج . وكلما تحركنا من اليسار إلى اليمين, فإننا تتحرك 
بشكل متسق نحو الأسفل في احتمال تنبؤي من أعلى نسبة مئوية إلى أدناها . وفي كل نقطة» تصنف كل 
الحالات في جهة اليسار باعتبارها إيجابية (على مستوى النتيجة) وكل الحالات في جهة اليمين» تصنف 

باعتبارها سلبية ضع ذا سحي لاسي لاييادة لنب الى تسق بكر مض وعر مرحي رن 
قبل النموذج في كُل نسبة مئوية لاحتمال متنباً. ويمثل الخط القطري في أسفل المركز 50./ . وهذا ما يتم 
المنول عايداعير التشيي الموائي» أي إذا كان التمودع غير مقيك الس ادع علق تعرنيف الخالاات إلى 
فئات. كما تمثل المنحنيات الموجودة ذ في أقصى اليسار وفوق هذا الخط. تطورات على مستوى التخمين 
العشوائي. وهكذاء تظهر منطقة ما تحت المنحنى الأكبر من 20.5 أن الدموذجء يمثل عونا في التنبق. وهذا 
يسمح بالقيام بمقارنة عبر النماذج» ومع مصنفات ثنائية أخرى مثل الانحدار اللوجيستي (المراجع). 
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العشوائي. لكن للقيام بذلك» ولّدنا شجرة معقدة جداً وهي الشجرة التي تكونت من 
6 تقسيماً متفرقاً. وسيسمح لنا «الغامب برو» بالنظر إلى الشجرة في مجملها في 
نافذة المُخرجء باستعمال المثلث الأحمر في الركن الأعلى جهة اليمين. اختر «أظهر 
الخيارات»» «قم بعرض الشجرة». وإن أشجار التقسيم شفافة كلياء لذا من السهل 
جداً فهم أي جزء من أجزاء الشجرة. ولكن هذا غير مرض؛ إذ ما نريده في الغالب» 
هو نوع من أنواع تجميع ما لما يخبرنا به نموذج ماء أي طريقة ما لاستيعاب نتائج 
النموذج في مجملهاء وليس هذا سهلاً باعتبار شساعة الشجرة وتعقيدهاء النابعة من 
داخل بيانات واسعة. وعلى الرغم من كُلْ هذاء من المهم تأكيد أن ما يجعل من 
أشجار التقسيم أشجارا تنبؤية للغاية» هي تلك الدقة والتعقيد الذين يجعلانها صعبة 
الفهم فهماً كاملاً. 
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الشكل رقم 2.210 منحنيات خاصية التشغيل المتلقي 0200 
باعتباره قياس تناسب نموذج لشجرة التقسيم. 


تتمثل إحدى طرق فحص نتائج الأشجار» في فحص محتوى الأوراق نفسهاء 
الذي يمكن القيام به في «الغامب برو»» من خلال فحص تقرير الورقة (تقرير ورقة 
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المثلث الأحمر). ويعرّف هذا التقرير كُلَ ورقة عبر وضع قائمة بكل التقسيمات التي 
انخرطت في تشكيلها (والتي تشكل - في الجوهر - متغيرات تفاعل في غاية 
التعقيد). وتخبرنا بأن تجزئة الورقة حسب فتئات النتيجة. مثل» تحتوي ورقة ماء حيث 
يوجد أفراد متزوجون ثلاثأء وممثلون في نسبة من أعلى النسب. على أولئك الذين: 

» هم مواطنون أمي ركيون بالولادة. 

© هم غير جامعيين. 

© يبلغ عمرهم 50 سنة أو أكبر. 

»هم من عرق «آخر». وأميركيون أصليون أو بيض. 

© يقيمون في مقاطعة التعداد السكاني لوسط الجنوب الغربي (تكساسء لويزياناء 

ورم 

وعلى النقيض من ذلكء إن ورقة ماء حيث متعددو الزيجات غائبون بشكل 
افتراضي. تحتوي على أشخاص يوصفون: 

© بكون أعمارهم تتراوح ما بين 51-43. 

© بكونهم مواطنين أميركيين بالولادة. 

© بكونهم حاصلين على درجة الباكالوريوس فما فوق. 

© بكونهم يعيشون في إنجلترا الجديدة أو ولايات منتصف الأطلسي. 

* بكونهم ذكوراً. 

والشجرة الصغيرة قد تكون شجرة سهلة التدبير ذات عدد صغير من التقسيمات» 
فعالة جداً في مساعدتنا االحصول» على الشجرة. ولكن لدى هذه الشجرة 116 ورقة 
منفصلة» بحيث تحدث كل واحدة منها العديد من التقسيمات. ومع ذلك» يمكن 
فحص كُلَ الأوراقء لأنه يساعدنا على إدراك تجاوز منطق التقسيمات. 
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الشكل رقم 7.10: أهمية المتنبأ في نموذج شجرة التقسيم. 

ربما يكون المسلك الأفضل لفهم كيفية بناء الشجرة؛ هو النظر إلى ما يسميه 
«الغامب برو) مساهمات العمود (0013111101) 001111213) (مساهمات عمود 
المثلث الأحمر). ويولد هذا مخطط تقارن متغيرات المدخل حسب مقدار مساهمتها 
في جعل الأوراق أكثر تجانساً من عقدة الجذر (الشكل رقم 7.10)©. وفي لغة 
الشجرة» هذا مقدار مساهمتها فى تقليص الأنتروبىء التى تقاس عبر إحصاء 67. وإن 
المتغيرات التي استخدمت بشكل متكرر من قبل الشجرة لتقسيم البيانات» متتحصل 
إجمالاً على أعلى 6. ولكن هذا ليس كَل ما يعنينا هنا. إن التقسيمات السابقة» التي 
أفرزت حصصاً أكبر من البيانات» ستكون أهم بالنسبة إلى *6 من التقسيمات اللاحقة. 
ولهذاء نلاحظ في الشكلء أن متغير المنطقة استعمل للقيام بمزيد من التقسيمات» 
أكثر من متغير التحصيل العلمى (20 مقابل 30)؛ ولكن للتحصيل العلمى قيمة 67© 
أعلى. وهذا راجع إلى كون العديد من التتسينات السابقة الأكثر تبعية» 520 
بالتوسل بالتحصيل العلميء كما «تفسر أكثرا ما يفرق متعددي الزيجات عن غيرهم 
من الأفراد الذين لم يتزوجوا بالمرة. 


(2) إن المتغيرات التي تظهر في الشكل تشير إلى العمرء والتحصيل العلمي (211عنال5)؛ والتعداد (المنطقة)؛ 
والمواطنة/ لأصل (12©). والعرق/ الإثنية (عرق 2): والجتوسة (إناث). والمكانة المهنية (1117/5151): 
وإجمالي الدخل الفردي (18/610:7). 
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إذن بم تخبرنا الشجرة بشأن ما يفرق متعددي الزيجات عن باقي الأشخاص 
المتزوجين؟ أولأء.وهذا غير مفاجيع خاصضة: إن السنّ يشكل لحدّ الآنء المساهمة 
الأكثر أهمية» بحيث يستعمل للقيام ب 28 قسمة منفصلة» والعديد منها يحدث في 
مرحلة مبكرة في الشجرة. طبعاء نحن نعلم أن هذا يتعلق ببساطة بالعرض - 
الأشخاص الذين عمروا لمدة أطولء كانوا «عرضة لخطر» الزواج لمدة أطول. ومن 
ثم وجود احتمال أكبر كي يتزوجوا مرات متعددة. إننا بطبيعة الحال» نفترض أن 
معظم التقسيمات التي تشمل العمرء تفرز مزيدا من متعددي الزيجات في الفريق 
الأكبر سئاً. ويمكن التأكد من هذا من خلال الانتقال عبر الشجرة بكاملهاء وفحص 
كُلُ هذه التقسيمات. كما نرى أيضاً قيام التحصيل العلمي بمساهمة مهمة» بحيث 
تخبرنا نظرة ما إلى تفاصيل الشجرة, عن أن أولئك الذين لهم تحصيل علمي أعلى؛ 
هم أقل احتمالاً بكثير فيما يخص زواجهم مرات متعددة؛ وهو أمر مفهوم باعتبار ميل 
ذوي التعليم العالي إلى الزواج في فترة متأخرة. ويواجهون خطر الطلاق بنسبة أقل. 
ونرى بعد ذلك. استخدام تلك المنطقة من البلاد في الكثير من التقسيمات. إن الزواج 
المتعدد أكثر شيوعاً في مناطق الجنوب والجنوب الغربي منه في أماكن مثل إنجلترا 
الجديدة والساحل الشرقي (على الرغم من الصورة النمطية عن أن كاليفورنيا هي 
عاصمة الطلاق). وأخيرآء إن متغيرنا ببخصوص المواطنة والمولدء منقور مرات 
عديدة. ولكن في أغلب هذه التقسيمات؛ نجد من غير المرجح وجود ذلك بين 
المواليد الأجانب خاصة من هو متعدد الزيجات. 


ولكن للأسفء إن اتجاه العلاقة بين متغير مهم والنتيجة» لا يعبر عنه بشكل 
ميشسّرء على الرغم من إمكانية إنتاج خلاصة عن المتغيرات المهمة في بناء الشجرة. 
ولن تبعد الأشجار أي شيء واضح جدا كمعامل انحدار للتعبير عن القوة ومنحى 
علاقة معينة. وليس هذا ببساطة ما تجيده الأشجار تحديداً؛ إن كنت مهتماً بالعلاقات 
المتوسطة» فإننا نقترح عودتك إلى النماذج المجربة والصحيحة لوحدة الاحتمالية 
والخوارزمية. وإن أفضل ما يمكنك القيام به حقاً في شجرة ماء هو ما نقوم به أعلاه: 
ولاحظ المتغيرات المهمة» ثم افحص الشجرة وقدم تقريراً عن ما حدث في أغلب 
التقسيمات التى تشركها. 
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خلاصة 


إن أشجار التقسيم أدوات قوية للتصنيف والتنبؤ. وقد تم تذييلها بشفافية نتائجها 
وسهولة فهم خوارزميتها الأساسية؛ فهي كثيفة من حيث الحوسبة» ولكن ليست 
معقدة خاصة. وفى الحقيقة» إنها تعمل بأداء الكثير من الحسابات البسيطة نسبياً؛ إذ 
توسم بسهولة التوظيف» والاستخدام مع إجراءات الصلاحية المتبادلة. علاوة على 
ذلك. تستطيع أن تخبرنا عن المتغيرات الأكثر أهمية في تنبؤات التوليد. وإن نقطة 
ضعفها هو أنها لا تخبرنا بدقة عن مدى أهمية متغير ما. 

وتستخدم الأشجار بشكل واسع» وهى شعبية» ووفرت عدداً من المتغيرات 
الأكتر تعقندا. :وأسفلف #فخض أثشة هن هتين «الأشتمان: حا العلياة: الأشسحان 
المعززة» والغابات العشوائية. 

الأشجار المعززة والغابات العشوائية 

لنقل إنك تظن أن شجرة التقسيم» طريقة مثيرة للاهتمام من خلال طرق النظر 
إلى تصنيف البيانات. ولكن هذا عمل بسيط جداً. أليس هناك من طريقة تمكننا من 
أخذ قوى طريقة التقسيم. ولكن قم بتكثيفها كي نستغل بشكل حقيقي» قدرة الحاسوب 
على استخراج أعداد هائلة من الحسابات؟ إذا أحسست بهذه الطريقة» فإن الإحصائيين 
قد طوروا جواباً عن دعواتكء وفي الواقع» طوروا العديد منهاء غير أننا سئركز هنا 
على اثنتين منها: الأشجار المعززة» والغابات العشوائية. ويمكن أن نتصور كلاهما 
باعتبارهما أشجار تقسيم على الستيرويدز (51670105)» معززة من حيث التعقيد 
وكثافة الحساب. وسنفسر ماهيتهماء ثم نصف كيف يمكن تشغيلهما في «الغامب 

الأشجار المعززة 

تستخدم الشجرة المعززة عدداً من أشجار أصغرء للتعلم من أخطاء تصنيف 
سابق» وبناء نموذج أكثر دقة - وذلك ما نأمله. أولاء تنشأ شجرة واحدة بعدد صغير 
محدد سلفاً من التقسيمات. ثم تحسب احتمالاً متنبئاً به» وبقايا لكل حالة في مجموع 
البيانات. ويعاد تر جيح الحالاات حسب هذه البقاياء بحيث تتلقى الحاللات المصنفة 
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57 تصنيقاً سيئاء ييا أكثر من تلك المضنفة 5 تصنيفاً صتعييها (وهي عملية تدعى 
التعزيز (8005]108)). 


60 وعع]1 01301606-8005]60 
:3615| أ0 )عطلرانالا 
عع]] عع 5ئ)زام5 
:ع ولالمقع 1 
اقمع )ع0 


انام5 عدزك مامالا 


9مرممغ5 بزاروع 
:ع2 ومتممدعا ممه كأتامى ععين كع عامنغانل/ا [9] 


عع[ معط ئأزام5 ١/3»‏ 
7 ع2 ورأممقع] )زوالا 


حت 





الشكل رقم 8.10: منصة الشحرة المعززة فى «الغامب برو». 


وتنشأ بعدهاء شجرة صغيرة أخرى باستخدام هذه الحالات التي أعيد ترجيحهاء 
ويعاد الإجراء مرات معينة عديدة إلى أن يتم توليد نموذج نهائي. والأشجار المعززة 
هي إذن نماذج تكرارية قادرة - نظرياً - على التعلم من الأخطاء وعلى أن تصبح 
تدريجياً أكثر دقة مع الوقت. 

ولتشغيل شجرة معززة في «الغامب)» افتح منصة إطلاق التقسيم (حلل تقسيم 
النمذجة). وبالقرب من الركن الأسفل على اليمين من هذه النافذة» انقر «طريقة» 
وانتقي «الشجرة المعززة». وبعد ذلك» قم بتوطين ما تبقى من النافذة» كما قد تقوم 
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بالشيء نفسه مع شجرة التقسيمء ثم انقر «موافق» (©016). وهذا من شأنه فتح منصة 
إطلاق الشجرة المعززة (الشكل رقم 8.10)» التي ستمكن المستخدم من تكييف 
عملية التعزيز. 

أولاً: نقوم باختيار عدد الطبقات (13/655). وهذا هو عدد الأشجار التي ستكون 
مناسبة بشكل إضافي للبيانات. وإن لدى «الغامب» نسبة تصل إلى 50. ويمنح مزيد 
من البرنامج فرصا أكثر للتعلم والتحسن» ومن ثم سينتج نموذجأ أكثر دقة. وفي 
المقابل سيزيد من العمل الذي يستوجب على الحاسوب القيام به» وكذا الوقت الذي 
سيأخذه تشغيل البرنامج. أما بالنسبة إلى مجموعات البيانات الضخمة مثل الذي 
نستخدمهاء فيمكن أن تنتج عدداً طويلاً من التشغيل» وقد ينهار البرنامج بسهولة إذا 
لم يكن للحاسوب ذاكرة وصول عشوائية (141/1) كافية. 

ثانياً: نختار عدد تقسيمات كُل شجرة على حدة. ويؤدي مزيد من التقسيمات في 
أي شجرة:, إلى أن تصير أكثر دقة» بما أنها ستولّد عقداً نهائية أصغر وأكثر دقة. (تذكّر 
أن الشجرة التي تمت مناقشتها سابقاًء استعملت 116 تقسيماًء ولم تفرط في التناسب). 
نوة أرق :عموماه إن مزيذا عن التقيماك هو كتى ءا افضل» ولك كما'سيق أن 
ذكرناء إن مزيداً من الانقسامات يزيد أضعافاً مضاعفة من عدد الحسابات التي يحتاج 
الحاسوب إلى إنجازهاء كما يمكن أيضا أن يزيد من مقدار الوقت المطلوب. 

وبعد ذلك. نحدد معدل التعلم (12]6 1.68:0108) الذي يتراوح ما بين 0 و1. 
بحيث تضمر القيم العليا حاجة البرنامج إلى مزيد من الثقة في استنتاجاته الأولية» 
بينما المعدلات المنخفضة يرسخ مزيدا من الحذر» وهكذاء إن المعدل العالى للتعلم 
يسرّع من الحسابات المعنية» ولكن على حساب الإفراط في التناسب» في حين تبطئ 
المعدلات المنخفضة التقارب». وإن كانت تنتج دقة أكثر. 

ثمة مَعْلمِانِ اثنان أيضاء يعملان كوقاية: ضد الإفراط فى التناسب فى متصة 
الشجرة المعززة «للغامب برو). وتضمن عقوبة الإفراط فى التناسب» عدم وجود 
الحالات ذات احتمالات منبأة مساوية للصفر. وستنتج القيم العليا إفراطاً أقل في 
التناسب. ويمكن للباحثين أيضا تحديد الحجم الأدنى من الانقسام» مما سيمنع 
البرنامج من تقسيم أي عقدة تكون أدنى من عدد محدد من الحالات التي توجد فيها. 
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ففي مجموعات بيانات ضخمة؛ من قبيل تلك التي نحن بصدد استعمالهاء (ومن غير 
المرجح استعمالها». ولكن يمكن أن تكون مهمة جداً في مجموعات بيانات صغيرة. 

أما الخياران الأخيران - وهما إما مشغلان أو موقوفا التشغيل - فيسميان 
«التوقيف المبكر» (108م500 /82119) و«متعدد التناسب على التقسيمات ومعدل 
التعلم» (]12 عستستدع.آ لص كاتام5 ع0 115 ع1م1ن38). وإن التوقيف المبكر 
- هذا إذا ما تم تفعيله - يعطي الإشارة إلى البرنامج بتوقيف عملية التعزيز الإضافية 
في حال فشل مزيد من التعزيز لتحسين التناسب على مستوى بيانات الصلاحية. وأما 
متعدد التناسب على التقسيمات ومعدل التعلم» فيعطي الإشارة للبرنامج من أجل 
بناء شجرة معززة منفصلة لكل مزج ممكن من التقسيمات ومعدلات التعلم المحددة 
من قبل الباحث. (ويتم تعيين الحدود الأكثر انخفاضاً من هذه الكميات في خانات 
التقسيمات ومعدلات التعلم التي سبق وصفهاء في حين يتم تعبين الحدود العليا 
تحت خانة التأشير في حقلي «الحد الأقصى من التقسيمات لكل شجرة» و«الحد 
الأقصى من معدل التعلم»). وهذا يسمح لبرنامج الشجرة المعززة من تجريب 
التمازجات المختلفة لهذه المَعْغلمات من أجل العثور على مزيج يعظم التناسب. وإن 
عملية تشغيله تزيد من فرص العثور على «النموذج الأفضل» (865]110061). ولكنها 
تزيد من وقت التشغيل بشكل ملحوظ. 

ودعماً لتحليلناء نختار إنشاء شجرة من 100 طبقة (ضعف القيمة الافتراضية). 
ونقوم باستخدام التوقيف المبكر» ولكن حددنا أيضاً القيم الدنيا والقصوى لكُل من 
التقسيمات بحسب كُلٌ شجرة» ومعدل التعلم» وسمحنا «للغامب برو» باختيار قيم 
هذه المَغلمات التي عملت بشكل أفضل في تصنيف الحالات بشكل صحيح في 
مجموعة الصلاحية «وتزاوععت تتسيمات 5 شعرة هن 3 إلى 12هتيتمًا تراوح معدل 
التعلم من 0.1 إلى 0.5. وعلى عكس شجرة التقسيم التي أعطت التتائج على الفورء 
استغرق برنامج الشجرة المعززة بهذه المواصفات حوالي ثمانية دقائق للانتهاء. 
وذلك غالباً بسبب أننا طلبنا من البرنامج إنشاء عدة أشجار معززة بشكل منفصل. 

يبين الشكل رقم 9.10 نتائج الأشجار الثمانية عشر كلها التي أنشأناها في 
مختلف إعدادات التقسيمات ومعدل التعلم. وقد تم إنتاج الطبقات ال 100 المحددة 
كلها للأشجار المعززة ما عدا الشجرتين الأخيرتين؛ بحيث تم اشتغال التوقيف 
المبكر بالنسبة إليهماء لأن إضافة مزيد من الطبقات كان سيؤدي إلى تناسب سيئ. 
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وانتهى الروتين باختيار نموذج شجرة معززة ذات عدد منخفض نسبياً من التقسيمات 
لكل شجرة (5)» ومعدل عال نسبياً من التعلم (0.4). وبالنظر إلى توقف الشجرة 
المعززة عن إضافة الطبقات في الحدٌ الأقصى المحدد لدينا (حتى بالنسبة إلى شجرتنا 
المنتقاة)» كانت هناك احتمالية تحسين التناسب أكثر قليلاً لو قمنا بتحديد مزيد من 


الطبقات. 
خلاصات تحديد صلاحية النموذج 
كان التناسب أدناه الأفضل من بين نماذج التناسب 
عدد عدد ‏ معدل جذر مربع معدل متوسط متوسطا متوسط 


التقسيمات الطبقات التعلم الأنتروبيا ‏ سوء خوارزمية خطأجذر غياب 


التصنيف ‏ 7 متوسط2 الخطأ 


المربعات 
3 100 60.1 0.1876 0.2946 0.5513 0.4339 0.3853 
4 100 0.1 0.1896 0.2960 0.5507 0.4340 0.3833 
5 100 0.1 0.1941 0.2908 0.5474 0.4321 0.3794 
6 100 01 1 0.2919 0.5473 0.4322 0.3783 
8 100 0.1 0200.2 0.2886 0.5420 0.4297 0.3756 
10 100 0.1 0.2029 0.2873 0.5419 0.4296 0.3743 
3 100 802 0.1956 0.2931 0.5466 1 0355 
4 100 002 0.2010 0.2878 0.5423 0.4298 0.3740 
5 100 80-2 0.2044 0.2860 0.5404 0.4290 0.3718 
6 100 02 22021 0.2856 0.5410 0.4293 0.3704 
8 100 802 0.2019 0.2878 0.5426 0.4299 0.3717 


ْآ2 


03703 ١5 0.5420 0.2875 »)03 02 100 10 


3 100 0.4 0.2017 0.2877 0.5416 0.4292 0.3696 
4 100 0.4 5ذ-)-2 0.2849 0.5391 0.4284 0.3686 
5 100 0.4 0.2069 0.2844 0.5389 0.4282 0.3677 
6 100 0.4 0.2052 0.2853 0.5404 0.4287 0.3679 
8 59 0.4 0.2047 0.2865 0.5399 0.4286 0.3676 
10 77 0.4 0.2050 0.2860 0.5405 0.4286 0.3671 


الجدول رقم 9.10: إحصائيات التناسب بالنسبة إلى أشجار معززة متعددة في 


«الغامب برو). 


إن المخرج الناتج عن شجرة معززة (الشكل رقم 10.10)» شبيه بشكل كبير» 
بمخرج شجرة تقسيم «منتظمة». وإن الفرق الأساسي. هو أن مخطط الصلاحية 
التراكمية» تبين مقاييس متعددة للتناسب وترسمها ليس في مقابل العدد التراكمي 
للتقسيمات» وإنما مقابل العدد التراكمي للطبقات أو أشجار التناسب. 1 
ملاحظة تحسن أولي سريع في التنبؤء المنجز من قبل أشجار أولى» وتليها فترة طويلة 
من تقدم أكثر بطئاً وثابتاً. وبعد الأشجار المعززة» يمكن لمساهمات العمود. 
ومنحنيات خاصية التشغيل المتلقي» ومنحنيات الرفع أن ولد أيضا: وأما تقاويو 
الورقة» فغير متاحة. 

يبيين لنا مساهمات العمود (الشكل رقم 11.10) مدى أهمية كُلَ مُدخل بالنسبة 
إلى عملية التصنيف. وبما أن هذه الشجرة مختلفة عن شجرة التقسيم المعيارية - بما 
أنه تم إنشاء عدد كبير من طبقات الشجرة» كُل بحسب بقايا سابقاتها - هناك احتمال 
أن تكون المساهمة النسبية للمدخلات مختلفة عما رأيناه سابقا. وبالفعل» هذا هو 
الأمر الواقع. إننا نرى أن مدخل العرق هو الآن أكثر أهمية من مدخل المنطقة» على 
الرغم من أن المدخلين العاليين في شجرة التقسيم (العمر» والتحصيل العلمي) 
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يبقيان المدخلين الأعليين هنا. واستغلت المكانة المهنية - التى بالكاد تلعب ذوراً فى 
السابق على الاطلاق - في الغالب من أجل خلق التقسيمات. وتراجعت مساهمات 
المواطنة» ومكان الولادة المتعلقة بمُدخلات أخرى. 


ويمكّن أيضاً «الغامب برو» الباحثين من معاينة الطبقات الفردية. وبحكم صغر 
حجم كُل طبقة» فسيكون من الممكن معاينتها برمتها بسهولة. ومن الممكن أن تظهر 
الأشجار بدرجات مختلفة من التفاصيل. ولمعرفة أكبر قدراً من المعلومات كما هو 
مبين في الشكلين رقم 12.10 و13.10» انقر المثلث الأحمر» أظهر الأشجار؛ أظهر 
الأسماءء الفغات. 


ى6دنةه5 اأمرء»0 كلك 
مملالضلاء0 مملأمةاادلا ومتدام1 ع اكدعالا 
(0)عءاناوما/(ا006م)علازاوم-1 02069 2 02108 عقنوك برممكامع 
((1-14)0(5)2/8)/((م/000/((4*)2)٠/(1-0)0)‏ 03299 05353 عرصوكةا لعداهبعمع0 
7[(/0اماوم٠-‏ < 05389 0561 م وما- مقعكةا 
م/*(ززام-[نا/؟ ١‏ 04282 0.43 ع5 
0/اازام اراب 5 03677 2 03676 06 كطخ مدعاا 
0/ل«تاامء ززام) 5 ججة02 038 مم86 ممتام (إككوعوا١‏ 
1" 56051 1104348 د 
»تقال ممتودكمم) ك 
للحت اء تنا اقم معمالعم إقناعم 
1 0 «#متامضادلاة 1 0 وقاططم! ‏ 
70 2418123 0 53 490527 0 
89 7420 1 9 7 148743 1 
موقل زاةلا عبان دانحسهن ك 
100 
ع)قاوكة 
8 وما- وياة 
]0 ك8 0.75 
"6 ونام وان 55 
/ 5 
0 2 
1 ل 
وت 5 
وسكت 0 3 3 د 
وخ 00 1 025 
وح يي سي 200 
/ 
بسسيع يبي ٍِ . 0,0 
100 830 60 40 20 0 


كعلقا أه ؟عطاصسلة 


الشكل رقم 10.10: مخرج الشجرة المعززة في «الغامب برو). 
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وقد اخترنا هنا عشوائياً طبقتين (طبقة 8 وطبقة 63) لأغراض توضيحية. وإن 
إظهار الطبقات ال 100 كاملة» لن يكون عملياً. وتقوم هاتان الشجرتان بقرارات 
تقسيم مختلفة تماماء بحيث تستخدم الأولى في التحصيل العلميء والعمرء والمكانة 
المهنية» في حين تستخدم الثانية في العمرء والدخل. ووضع المواطنة. 


كه نط تأنه مسأه) ك 

لتعلنيديها 
642 كثام؟)ت ص1 
52 320 
٠‏ 47 الأقعرق» 
:ْ ْ 49 62 
ْ 42 002 
ا صوص تمن 41 ممعم 
3 17 4998701 عاقلا 
2 10 ثانا 
65 60601 





الشكل رقم 11.10: أهمية المتنبأ الناتج عن نموذج شجرة معززة. 
غابات عشوائية 


تستخدم غابة عشوائية (5075]5 188300072) ما (أو غابة النظام التمهيدي 
(10565 م2)))80015]53 تقنية يمكن من خلالها توليد عدد لا متناهى من العينات 
العشوائية انطلاقاً من مجموعات بيانات متناهية؛ فنظام التمهيد كوف حوبي نقوم 
بمعاينة بياناتنا بالاستبدال (17624ء136مع18) (وهذا مفتاح)؛ ومن ثم القيام بتوليد 
مجموعات البيانات المنفصلة المولدة عشوائياً بقدر ما نحتاج إليه. وبما أن تجميع 
البيانات الأولية الذي تم عشوائياً انطلاقاً من السكان - ومن خلال إعادة معايئة هذه 
العينة» فإنه «كما لو أننا" نعيد عينة السكان - مع التحذير (القوي) من أن الحالات غير 
المدرجة في العينة الأولية» لا أمل لها في الانضمام إلى أي من العينات التي أعيد 
تشكيلها من النظام التمهيد (بيئما لدى تلك التي كانت مدرجة في الأول الاحتمالات 
نفسها كي تكون مدرجة أو تكون غير ذلك؛ المعاينات التي تمت إعادة تشكيلها). 
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هكذاء إن النظام التمهيدي يمكن المحللين الإحصاتيين من احتواء - على الأقل 
حرنيا عنتشكلة وتغوذ عزئة واتحدة عندما يفترض معيان (المغروف أيضا بالمتكررة) 
الإحصاء النظري إعادة معينة متكررة. من أجل هذاء كثيراً ما تستعمل باعتبارها طريقة 
مبدعة للحصول على أخطاء معيارية أكثر «قوة» (]5ناط10). 

وتستخدم الغابات العشوائية النظام التمهيدي من أجل إنشاء عدد كبير من 
الأشجار المنفصلة (ومن هنا جاء مصطلح الغابة)» كُلَ واحدة منها يتم على مستوى 
قسم مختلف من البيانات» المختار عشوائياً (مختار بطبيعة الحال» بالاستبدال). 
وعلاوة على ذلك. تقوم الغابات بمعاينة قسم من متغيرات المتنبئ» المستخدمة في 
توك كنات قن وتحرة ما رتم هد أن كل تسر مو لد زستكؤة نكتانة إلى 
حدّ كبير. وبعد هذاء سيتم جمع كُلَ الأشجارء واستخراج معدلاتها. والغاية من ذلك 
شبيهة بغاية الصلاحية المتبادلة: تقليص إمكانية الإفراط فى التناسبء والزيادة فى 


ولتشغيل غابة نظام التمهيد. قم بفتح نافذة إطلاق التقسيم مثلما تم في السابق. 
وقم بانتقاء غابة نظام التمهيد في مربع الطريقة. وماعدا ذلكء يبقى نفسه. وعندما تنقر 
«موافق» (014)» تفتتح منصة إطلاق غابة نظام التمهيد (الشكل رقم 14.10)) لتسمح 
بذلك تعديل المَعلمات. 

أولاً: نختار عدد الأشجار التي سوف يتم إنشاؤها لتوليد الغابة. وكما قد تتوقع, 
إن إنشاء مزيد من الأشجارء يؤدي عموماً إلى نموذج أكثر دقة وقابل للتعميم» ولكن 
سيزيد فى المقابل من وقت التشغيل أيضاً. 

وباستطاعتنا الآن تعديل المَعغلمات التى تحدد معدلات معاينة الحالات 
والمتغيرات (أو إن شئتم الأعمدة والصفوف). ونحدد أولاً «عدد المصطلحات 
المعينة لكل انقسام». ويشير هذا إلى عدد المتغيرات المستقلة التي تستخدم في كل 
شجرة. وتقوم غابة نظام التمهيد بمعاينة المتغيرات المستقلة وكذا الحالات ب يقة 
عشوائية» (أو إن شئتء تقوم بمعاينة كُلَ من الصفوف وأعمدة مصفوفة البيانات). 
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وإن استخدام مزيد من الأعمدة» يسمح لكل شجرة بأن تكون أكثر تعقيداًء ولكن 
للضرورة؛ ستكون أكثر تطابقاء متخلية بذلك عن بعض المزايا من مزايا إنشاء عدد 
كبير من الأشجار المختلفة وإيجاد متوسط لها. وبعد ذلك» نحدد «معدل عينة نظام 
التمهيد». ويشير هذا إلى حجم نموذج النظام التمهيدي المراد إنشاؤه من البيانات 
(المتغلق بتجنة العيتةالأصلية): 


3 )ها ك 











مع6 عو 5 م || بعوعااقى علوهو* 











ععنوة 0 رماو طاء ة8 ,45" مقطا ودع | بعععوء0 ع أواءه ككف بذر8 مقطااع ممم 


الشكل رقم 12.10: طبقة واحدة من شحرة معززة. 


على سبيل المثال» إن قيمة 100 ستولد نموذج نظام تمهيدي متساو من حيث الحجم 
مع البيانات الأصلية. هذا الرقم لا يشير الآن إلى نسبة البيانات المستخدمة في نموذج 
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نظام التمهيد, لأننا نقوم بالمعايئة بالاستبدال» ومن ثم يكون من المرجح بالنسبة إلى 
بعض الحالات أن يتم انتقاؤها أكثر من مرة. ويمكن لهذا العدد أن يكون أكبر من 
0.. وعموماًء ستؤدي العينات الكبيرة إلى مزيد من الدقة» ولكن أيضاً إلى الزيادة فى 
وقت الت لتشغيا 8 
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الشكل رقم 13.10: طبقة أخرى من شجرة معززة. 


وإن «الحد الأدنى من التقسيمات لكل شجرة) (عع15 ع8 هاذ1مرد تتلاستسصت/1) 
و«الحد الأدنى من حجم التقسيم» (]11م5 5126 1/1111:00151) هما بالضبط ما يظهران: 
أنهما يعملان من أجل وضع حدود على تعقيد النموذجء ويحذران من البساطة 
المفرطة» والإفراط في التناسب على التوالي. وكما هو الحال مع الأشجار المعززة؛ 
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إن «التوقيف المبكر»» يعطي الإشارة للبرنامج من أجل التوقف عن توليد مزيد من 
الأشجارء إذا لم تحسن الأشجار الإضافية من صلاحية التناسب. وأخيراًء ستقوم 
١التناسبات‏ المتعددة على مستوى عدد من المتغيرات» - إن تم التحقق منها - بإنشاء 
غابة منفصلة (1*05650 56035216) لقيم متنوعة لعدد من المتغيرات» بدء ابعدد 
المتغيرات التي تمت معاينتها لكل تقسيم»؛ مروراً بالعدد الذي تم إدخاله في «الحد 
الأقصى لعدد المتغيرات». ويسمح هذا الخيار بمزيد من النمذجة الشاملة» ولكن 
يزيد من وقت التشغيل بشكل كبير. 
5-0 050 
أوع]0؟ مقتأكا0ه80 


9 ولاه 016 ععطنونلة 
8 :65 أو أعطتمر نالا 


أ5ع101 1 مز دعع11 أن عرعطالمنالا 
تأأامك ,عم لعاملمقد كلمع أو ععماصسول؟ 
:36] عام 5300 م3أكامو8 

:عع )ع6 كأ م5 زمنالمتادالا 

عع[ ,ع2 كأزام5 لونالماكات]/! 


أ [امك 512 قلقنالماوأا 


و0أممه]5 /زاروع [7] 
كمع أه ععطوميم ععباه كاز عام اناا 


٠ - 5‏ :)2 أن ععطتنونلا غرداا 


7 ب ص م _- 





الشكل رقم 14.10: منصة إطلاق غابة نظام التمهيد («البوتسراب») في 
«الغامب برو). 
لقد قمنا بإنشاء غابة من 100 شجرة منفصلة (ضعف القيمة الافتراضية): واخترنا 
معذل معاينة نظام التمهيد من 10./. وتحققنا من «التناسبات المتعددة على مستوى 
عدد من المتغيرات»» وسمحنا لعدد من المتغيرات لتتراوح تبايناتها ما بين 2 و5» مما 
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أفضى إلى أن ينتج البرنامج أربع غابات منفصلة مكونة من 100 شجرة لكل واحدة 
(الشكل رقم 15.10). وبسبب هذا الاختيار الأخير» استغرق البرنامج أربع دقائق 
للتنفيذ. واستقرتغلى خسن متغيرات لكل شجرة كعددمثالى.ومرة أخرئء لاحظ 
أن الغابة في هذه القيمة المثالية» لا تحتوي إلا على 29 شجرة, مما يعني أن التوقيف 
المبكر كان شغالا. ومع ذلك» من الممكن أن تكون معاينة مزيد من المتغيرات قد 
خلاصات تحديد صلاحية النموذج 
كان التناسب أدناه الأفضل من بين نماذج التناسب 

عدد عدد جذر مربع معدل سوء متوسط متوسط متوسط 
المتغيرات الأشجار الأنتروبيا التصنيف خوارزمية خطأجذر2 غياب 


ع 


م تتوسظط” ]إلجكنا 


0.4123 0.4420 0.5725 0.3019 09 36 
0.3989 0.4373 0.5612 0.3001 0.1739 8١_00 
0.3905 0.4357 0.5565 0.3014 3 43 
0.3883 0.4349 0.5549 0.2986 0 29 


دح ييا لد ها 


الشكل رقم 15.10: أمثلة نموذج غابة عشوائية في «الغامب برو» من خلال اختيار 
عدد المتغيرات المعاينة. 
لقدتم وصف إحصاءات التناسب ومخرج آخر ذي صلة من الغابة العشوائية في 
«الغامب»؛ في الشكل رقم 16.10. وسوف ينتج «الغامب» تلقائياً إحصاءات شاملة 
للتناسب» ورسم بياني تراكمي للصلاحية مماثل لتلك التي تم إنتاجها بشجرة معززة 
(باستثناء رسم المحور عا لعدد الأشجار في الغابة بدلا من عدد الطبقات في الشجرة)» 
ومصفوفة الارتباك. وسوف تنتج أيضاً إحصائيات كُلّ شجرة على حدة. 


ومن خلال استخدام المثلث الأحمر في الجانب الأيسر العلوي لنافذة المخرج 


256 

















الكامل (غير معروض)» يمكننا رؤية اعرض شجرة صغيرة» لكل شجرة فردية في 
مجموعة البيانات. ويمكننا أيضا الحصول على معلومات مفيدة مثل مساهمات 
العمود ومنحنيات خاصية التشغيل المتلقي. ومنحنيات الرفع. كما يمكن توليد 
الاحتمالات المتنبأة. 
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الشكل رقم 16.10: مخرج من غابة عشوائية في «الغامب برو». 
وعند فحص مخطط الصلاحية التراكمية في الشكل رقم 16.10: يكون من 
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المهم الإشارة إلى أن إحصاءات التناسب التي لا تتحسن بشكل متطابق» بما أن الغابة 
العشوائية تنشأ مزيداً من الأشجار. وفي المقابل» يوضح مخطط الصلاحية التراكمية 
لبيان نموذج الشجرة المعززة تحسنا بدائيا سريعا في التناسب. متبوعا بتقدم دائم 
وبطيء. ويرجع هذا الاختلاف إلى الاختلاف فيما تقوم به هاتان الطريقتان في واقع 
الحال. ولقد صممت الأشجار المعززة للتعلم من الأخطاء السابقة» المؤدية إلى 
تناسب أكثر قرباً (لكن مع احتمالية الإفراط في التناسب). ومن جهة أخرىء تنشأ 
الغابات العشوائية أشجارا فردية بشكل متسلسلء لكن مستقلة عن بعضها بعضا. وما 
تقوم به إحدى الأشجار الفردية» هي وظيفة من وظائف المدخلات» والحالات التي 
تعاينها عشوائياء وليس وظيفة قامت بها شجرة ما سابقاً. ومن ثم» فالتطور غير 
مضمون على المدى القريبء على الرغم من أن إحصاءات الصلاحية تعرف تحسنا 
على المدى الطويل (بينما يتم إنشاء أكبر عدداً من الأشجارء واستخراج متوسطاتها). 

إن إحصاءات مساهمة العمود (الشكل رقم 17.10) متشابهة جداً - من حيث 
العلاقة - مع شجرة التقسيم الأولى. ومرة أخرى. يتم استغلال متغيرات العمرء 
والتحصيل العلمي» ومنطقة البلد» والأصل في معظم الأحيان لتقسيم البيانات. ومع 
ذلك. لاحظ أن عدد الانقسامات التي تمت هناء ضخمة. وهذا راجع إلى أنه في 
إعدادات الغابة العشوائية» قمنا بوضع الحدٌ الأدنى فقط لعدد الانقسامات التي يمكن 
للنموذج القيام بها بالنسبة إلى كُل شجرة على حدة: ولكن لا يتيح أي حدّ أقصى. 
ولذلك فإن معظم الأشجار في هذه الغابة» هي أشجار جدا دقيقة» وذات انقسامات 
عدة, لكُلٌ واحدة منها. 


من الإنصاف التساؤل - في هذه النقطة - عن متغير الشجرة الأفضل من حيث 
الأداء من أصل المتغيرات الثلاث. أما الأشجار المعززة والغابات العشوائية» فهي 
متغيرات على مستوى شجرة التقسيم» ولكن كل واحد منها كثيف ودقيق حوسبياً إلى 
أبعد الحدود. وهل ينجم عن هذا العمل الإضافي نتائجح من حيث الدقة التنبؤية 
الزائدة؟ يقارن (الجدول رقم 1.10) هذه النماذج باستخدام مقاييس مختلفة من 
التناسبء والجواب الذي يوفره هو نعم حيث تتفوق كَل من الشجرة المعززة والغابة 
العشوائية في التصنيف خارج العينة. ولكن هل تحسنان النتائج بشكل كبير؟ هذا 
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يتوقف على قراركم. أما فيما يخصناء فنميل إلى الجواب الذي يعتمد على مدى 
أهمية أن تكون دقيقاً بقدر الإمكان. وإذا كانت مشكلة تصنيفكم غير مؤثرة بصورة 
خاصة؛ ولكن لديكم كميات ضخمة من البيانات والمتغيرات لتنتج من خلالهاء فقد 
ترغب بالحفاظ على تلك الزيادة الهائلة من وقت التشغيل» وتقوم ببئاء شجرة واحدة 
فقط. ولكن إذا كان لديك مشكلة شديدة التأثير (مثل الفرز بين الخلايا المسرطنة 
وغير المسرطنة)» فربما قد ترغب في انتظار فترة أطول قليلاً وتكون متأكداً أكثر. 
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الشكل رقم 17.10: أهمية المتنبأ من نموذج غابة عشوائية. 


الجدول رقم 1.10: مقارنة أداء شجرة تقسيم؛ وشحرة معززة» وغابة عشوائية. 


شجرة تقسيم شحرة معززة غابة عشوائية 


شبه 12- (مكفادن) 00.9 0.2069 0151 
توسط الخطأً التربيعى للجذ 
متو بيعي للجدر 
(الصلاحية) 043 0048 045 
مغدل سوء التصنيف (التدريب) 0,58 0,3 0301 
معدل سوء التصئيف (الصلاحية) 022 0224 0,9 


بتطقة تحت منج خخاضية التشغيل :ون 0735 0752 
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الحساسية (التدريب) 063 068 )006 


الحساسية (الصلاحية) 09 04 0620 
الخصوصية (التدريب) 0,73 076 0751 
الخصوصية (الصلاحية) 0,0 078 0,2 


تسخر الأشجار المعززة والغابات العشوائية المنطق الأساسي للأشجارء ولكن 
تمزجها مع عمليات التعزيز والنظام التمهيدي في محاولة لتحسين دقة النموذج 
وتعميمه على العينات المستقلة. أما فيما يخص البيانات والإعدادات الصحيحة.» 
فبإمكانها التفوق على والديها الذي هو شجرة التقسيم» ولكن لا تقم بذلك دائماً في 
تجربتنا. علاوة على ذلكء تتنازل عن الكثير من امتياز شجرة التقسيم - شفافيتها - 
بواسطة زيادة التعقيد على نحو ملحوظة. وإن العمل الكبير الذي قد يستهلكه فحص 
كُلّ من العدد الهائل من الأشجار المنتجة من خلال التعزيز أو في الغابات» هو عمل 
هائل (على الرغم من أنه ليس مستحيلاً من حيث المبدأ). إنها نماذج أكثر تنبؤاً بشكل 
حصري من والديها - وليس بالشيء المفيد لفهم ما يجري في عملية التصنيف. 
ولكن إذا أربكت هذه الطرق محاولات التفسير» فإن ما سنناقشه لاحقاً سيكون أكثر 
صعوبة. ونتتقل بعد ذلك إلى مناقشة طريقة «الصندوق الأسود» بامتياز» المتمثلة فى 
الشركة العضية: ش 
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(لفصل (لماوي عشر 
الشبكات العصبية 


تعد الشبكات العصبية الاصطناعية (1655:01165/ 18[1ناء]! 0121 ناتخ ) (11للم) 
(التي تعرف اختصاراًء بالشبكات العصبية) أدوات تعليم آلي» تستلهم تقنياتها - كما 
يقترح ذلك اسمها - من عملية الأعصاب البيولوجية. وللحصول على مفهوم مجرد 
وعام للغاية» لكيفية اشتغال الشبكات العصبية» لندرس الاشتغال الأساسي لعصب 
(0هتناء[8) ما. إن لدى الأعصاب تفرعات خلوية (21]65لمء12) تجمع معلومات 
مدخلة من أعصاب أخرى. وتدمج هذه المعلومات حتى إذا ما تم بلوغ عتبة ماء 
«يتقد» (11565) العصب. وبهذه الطريقة يمد العصب قنوات المعلومات لأعصاب 
أخرى. علاوة على ذلك تملك شبكات الأعصاب القدرة على التعلم (وضتصتةء.آ)؛ 
استناداً إلى الأخطاء السابقة. 


إن الشبكات العصبية الاصطناعية تعمل على نحو مماثلء ذلك بأنها تجمع 
معلومات من مجموعة من المُدخَلات (10]5م10) (مجموعة بيانات ذات مجموعة 
معينة من متغيرات مُدخل مستقل). ويخصص لكُلَ متغير مدخل؛ ترجيحاً عشوائياً. 
وبعد ذلك تُجمع المعلومات من كلَ المتغيرات عبر الإجمال (5111321226100)» 
وتتحول إلى قيمة نتيجة ما بواسطة دالة لاخطية. ويمكن لمتغيرات المُدخل والمخرج 
أن تكون مستمرة» فئوية ([02]6801128)). أو ثنائية (/81م81). 
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ويظهر مثال من أمثلة الشبكة العصبية كالذي تم وصفه آنفاً في الشكل رقم 
1 . لقد حددنا نموذجاً من ثمانٍ مدخلات. أو متغيرات مستقلة. وتدمج المعلومات 
من هذه المتغيرات في الدائرة لتُظهر شكلاً مصقولاً يشبه شكل 
5 (عمقطة 5200160-5) (ممثاذً دالة الظل الزائدية غ4مع58ة]” عناوطرعم:ز1]) 
(1"111017) وتستخدم في تنبؤ متغير المدخل. 


وسيساعدنا هذا على تقديم بعض مصطلحات الشبكة العصبية. والمستطيلاات 
الثمانية الموجودة على اليسار هي عَقّد المدخلات (5وع8!00 أنا3]) أو طبقة المدخل 
(6/زةئآ أنامم1) للشبكة العصبية التي تقدّر المعلومات. وتلخصهاء وتحولها انطلاقاً 
من المدخلات. وأخيراً يشير المستطيل على اليمين إلى طبقة المُخْرج غنامانة0) 
(61نإة] التي تمثل الاحتمال المتنبأ للنتيجة. 





الشكل رقم 1.11: شبكة عصبية بسيطة (صورة مأخوذة من «الغامب بروا). 

إن هذه شبكة عصبية بسيطة» تعد - بشكل تام تقريباً - انحداراً لوجيستياً. 
وعموما: تحسَن الشبكات العصبية الانحدار اللوجيستى؛ من خلال إضافة التعقيد 
عبر عقد خفية متعددة. وتظهر شبكة عصبية أكثر نموذجية في الشكل رقم 2.11؛ 


12ظ2 


بحيث تتألف الطبقة الخفية الآن من أربع عقد خفية. وكل متغير فى مدخا الطبقة 
م من أربع ِ متغير في : 
مرتبط - بشكل مستقل - بعقدة خفية. إذ ترتبط بدورها باستجابة المتغير. 


ولفهم سبب أهميتهاء دعنا ندرس فعل الشبكة العصبية عندما تمرر المعلومات 
من المدخلات إلى عقدة خفية وحيدة. وتمثل كل عقدة متخيراً وحيداء له مجموعة 
محددة لقيم توزيع معين (ثنائي الحدود (81202181)». وعادي» وهكذا). وبينما يمرر 
كل متغير معلوماته للعقدة الخفية» يتم تخصيص وزن له مماثل لمعامل انحدار. 
وبعد ذلك. تُضاف قيم الترجيح (1/21065 18/6185060) بمفردها إلى جانب متغير 
(اعتراض) وتتحول النتيجة عبر دالة محددة. وينتج هذا قيمة مُخرجَة. 

والمهم هنا الذي يجب توضيحه وهو أن الترجيحات المشار إليها آنفاً اختيرت 
بشكل عشوائي (©0105) (إ169800121) من قبل منصة (81361012) الشبكة العصبية. 
ويتم تعديلها - بعد ذلك - مراراً وتكراراًء كلما تطور النموذج عبر البيانات لتصحيح 
أخطاء التنبؤ. وتحدث العملية نفسها في كل عقدة خفية (21006 مءع1100] طعد)؛ 
أي فى كل عقدة» تطَبّق ترجيحات مختلفة؛ منتقاة عشوائيا على كل متغير» وتُعدّل 
بعد ذلك بشكل متكرر. وهكذا فعدد القيم المتنبأة للمتغير التابع؛ المولّد في كُلَ طبقة 
خفية» يساوي عدد العُقد الخفية في تلك الطبقة. وتخصص أيضاً لهذه القيم المتنبأة 
ترجيحاً عشوائياًء كما أن هذه القيم المرجحة معدلة أيضاً بشكل متكرر» وممزوجة 
لإنتاج احتمال متنبا للنتيجة. 

ومن الممكن - إضافة إلى ذلك - حيازة أكثر من طبقة خفية. ويسمح «الغامب» 
ببناء نماذج من طبقتين خفيتين» ويجمع الخبراء عموماً على أن معظم المشاكل ذات 
طبقات خفية» تعد كافية. وتستخدم الطبقة الثانية ببساطة» الطبقة الخفية الأولى 
باعتبارها طبقة مُدخلء كما تنجز عملية الترجيح والنمذجة والتحول نفسهاء بالتزامن 
مع أداء الطبقة الخفية الأولى لمدخلاتها. 

وتتطلب عملية التصحيح الترجيحية والمكررة قليلاً من التطوير» وتذكّر أن 
الترجيحات المخصصة في كُل عقدة خفية تشبه معاملات الانحدار. وفي الحقيقة 
تمت إضافة متغير اعتراض (معمنعام1) أيضاًء ولهذاء فمن الدقة بمكان. التفكير في 
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كَل عقدة باعتبارها تؤدئ بالأساس: اتحداراً لا خطياً. وتختار الشبكات العضبية 
معاملات انحدار على نحو أكثر تماثلاً للغاية للانحدار اللوجيستيء الذي يستخدم 
تقدير احتمال أقصى (15)15218]1008 115000ء!ز.آ تصناحط 13:2 )» من انحدار المربعات 
الصغرى العادية. ومثلها مثل الاحتمال الأقصىء تبدأ الصيغة العصبية من «تخمين» 
مختار عشوائياً في أفضل القيم وتعدل نفسها بعد ذلك. 

ومع ذلك. وخلافاً للانحدار اللوجيستيء فإنها لا تقوم بهذا مستخدمة كل 
البيانات» بل تستخدم ترصداً بترصد. وبهذه الطريقة» تكون الشبكة العصبية قادرة 
على التعلم من «الأخطاء» التنبؤية التي تقع فيها عندما تعالج مجموعة بيانات التدريب 
قصد صقل مَعْلماتها. عليها الآن أن تعدل بشكل متزامن عددا كبيرا من المَعْغلمات» 
وذلك بالتحرك في عملية معقدة» من عقدة المخرج إلى كل عقدة من العقد الخفية» 
ومن ثم, لكل عقدة من عقد المدخلء مُعَدّلة كُل ترجيح على طول الطريق. وخلال 
هذه العملية «تدرب» الشبكة «نفسها» على التخمين الأفضل فى القيمة المتنبأة: 
القائمة على البيانات التي جاءت من قبل. ْ 

تتجلى إحدى ميزات الشبكة العصبية فى معالجتها اللا خطية (/رامةعصنامه81)» 
أفضل بكثير من تقنيات الانحدار العادي. مائحة عقداً كافية بخاصة. وهي قادرة على 
معالجتها من دون مخرج معين من لدن الباحث. والباحث لا يحتاج إلى القيام بعملية 
الزيادة في متغيرات تفاعل أو متغيرات محؤلة (مربعات» تحولات لوغاريثمية 
وغيرها)؛ إن النموذج نفسه هو الذي سيرسم خريطة لها. 

ولكن هذا لا يعني القول إن الشبكات العصبية أصبحت (411]01018160) بشكل 
كامل» بل إن هناك معلمات نموذج عديدة تحتاج - من أجل تحسين التنبؤ - إلى 
ترجيح من لدن الباحث عبر تشغيلات متعددة لشبكة عصبية ماء كما سنرى بعد لحظة. 
وإن عملية ضبط شبكة عصبية تخضع بقدر كبير» لعملية «التجربة والخطأ» -1:181) 


(: ترط -2110. 


وعدن ده أخرى لوذه النشية فى قدرة عوية عسو إن المبكات العضية 
عموماً متفوقة على نماذج الانحدار (أو - نظرياً - حتى على أشجار التصنيف) من 
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توليد التنبؤات الدقيقة. ومثلها مثل أشجار التصنيف» فهي أيضاً تتعامل مع 

مر ا 

ولكن الشبكات العصبية لا تخلو من بعض العيوب مثلها في ذلك مثل جميع 
التقنيات. 

أولا: وقبل كُلَ شيء؛ تعد الشبكات العصبية رديئة السمعة من حيث إنتاجها 
للمدخل المبهم بشكل تام تقريباً (فهي غالباً ما يشار إليها باعتبارها طريقة «الصندوق 
الأسود») . وبخلااف الانحدارات. لا تعمل الشبكات العصبية على تيسير الحديث 
عن العلاقة بين المدخللات والمخرجات. ومن الممكن الول ابالغامب» بغية 
البحث في الترجيحات أو المعاملات التي تكوّن النموذج؛ غ غير أنها - مع ذلك لا 
تسلم بتأويل سهل. وهكذاء نواجه المقايضة نفسها بين الدقة التنبؤية وقابلية التأويل 
كما حدث مع أشجار تقسيم كبيرة. و كلاف زالة كبا تع تيح لصت تيد 
شجرة تقسيم كبيرة» نموذجاً سهل القراءة. فمن الممكن - بالمحصلة - قراءة أي فرع 
لشجرة ما وفهمها. ولكن العقد العصبية تمنحنا الترجيحات المولدة بشكل متكرر 
استيعاب معنى ترجيح مساهمة عقدة لمستوى أول خفي في عقدة طبقة ثانية خفية 


ثانياً: إن الشبكات العصبية غير متناسقة إلى حدٌّ ماء ما دامت تقوم على عملية 
تعلم تكرارية» تقوم بدورها على تخمينات عشوائية أولية. إن تشغيل برنامج شبكة 
عصبية في «الغامب» مرتين - على البيانات نفسها - باستخدام المتغيرات نفسهاء 
ذات إعدادات المعلم نفسهاء والصلاحية» انطلاقاً من الحالات نفسهاء سيتتج 
نموذجين مختلفين لهما إحصاءات تناسبية» تتنوع بشكل كبير. إِنْ عدم استقرار 
المنصة العصبية (213610152 71611521) يتقلص عندما نستعمل مجموعات بيانات 
م ا 0 

ثالثاً: إن لكان الحفية -مادامت تتخصص في التنبؤ - لها ميل قوي لتعقيد 
البيانات. ولكن» يمكن التصدي إليها عبر استعمال الصلاحية المتبادلة. وإذا كانت 


الإحصائيات التناسبية في مجموعة اختباركٍ أسوأ ,بشكل ملحوظ من مجموعة 
تدريبك» فإن ذلك يعني أنلك شكلت نموذجاً معقدآأ ومخدواً جد وعليك إعادة 


الاتصال بتعقيد النماذج (وعادة ما يتم : تحقيق تحقيق ذلك من خلال تحديد عقد خفية أقل) : 


205 


وتوجد الروتينات (18010]1265) بالنسبة إلى الشبكات العصبية في نمذجة الحزمة 
الإحصائية للعلوم الاجتماعية (:2100616 5255)» و1 (الشبكة العصبية للحزمة)» 
و5845 (العملية العصبية) و«الماتلاب» و471].418]! (مختبر المصفوفة). وسنشغل 
مثالاً في «الغامب». لمرونته العالية» ولتوفيره أدوات تصور لبيانات ممتازة. وفي 
مثالناء نستخدم مرة أخرى بيانات من مسح المجتمع الأميركي. وقد تم تغيير هذه 
البيانات لتضم فقط البالغين ممن بلغوا سن العملء الذين تم توظيفهم خلال المقابلة» 
ونقوم بعملية معاينة 5/ من الحالات (لتسريع عملية البرامج). وستتنبأ بالدخل 
الشخصي مستخدمين مجموعة من المتغيرات المشاركة (00778112165). 

ولبداية تشكيل النموذج. افتح المنصة الأولية لانتقاء المتغير للشبكات العصبية 
(تحليل النماذج العصبية (21تناء]! عصناع71100 2215:26ش)). وفي هذه النافذة» يمكن 
تحديد المتغيرات المستقلة والتابعة في النموذج العصبي. ونشكل لا ليكون 
اللوغاريثم الطبيعي للدخل الإجمالي الشخصي. ومتغيرات المتنبأ المختارة هي 
منطقة من مناطق البلاد والعمر. والتحصيل التربوي» وافتراض يحدد أولئك 
المسجلين بصفتهم طلبة في أي مكانء والمواطنة» ومكان الازدياد والجنوسة. 
والعرق» وعدد الأسابيع التي اشتغل المبحوث خلالها في العام السابق» وعدد ساعات 
العمل في الأسبوع في العام السابق. ونشكل أيضا متغير صلاحية 0191108105 
(©1/8181 إذا ما رغبنا في ذلك. وإن القيام بهذا - في الغالب - أمر جيد إذا ما أردت 
مقارنة مدى اختلاف حالات الضبط للشبكة العصبية فى التدريب نفسه ومجموعات 
الصلاحية. ْ 


ننقر 016» فنحصل على منصة إطلاق عصبية (الشكل رقم 3.11)» ونواجه 
مجموعة كبيرة من الضوابط والمَّعْلمات التي نحتاج إلى تشكيلها. وتسمح لنا 
اللوحة العلوية (1ع282 م10) لهذه المنصة بتحديد إجراء الصلاحية. كما يمكننا 
الاختيار بين حصة الكابح ©110105261)» أو السطور المقصية (إذا ما سبق لنا إقصاء 
السطون فسيكون ذلك مساو لاستخدام متغير صلاحية كابح)؛ أو الصلاحية المتبادلة 
لطية-ك (1:010-!). ونختار كبح ثلث البيانات للتحقق من صحتها. 
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أما اللوحة الموالية» فتسمح لنا باختيار عدد الطبقات الخفية التي نريدهاء وعدد 
العقد بحسب كُلّ طبقة» ونوع التحولات (أو التفعيلات (41178]00090): التي 
نريدها أن تكون في كُلَ عقدة. ولا توجد هنا إلا طبقتان اثنتان. وإن استعمال المزيد 
من الطبقات والعقد بالنسبة إلى كل طبقة أضعافاً مضاعفة» يزيد من عقدة النموذج» 
مما قد ينتج تنبؤاً أكثر دقة في مجموعة التدريبء ولكنه يزيد أيضاً من احتمال الإفراط 
في التدريب في مجموعة الاختبار. 


ويستخدم «الغامب» دالة التان (1888) التماسية القطعية عذاوطععمنز1]) 
(م10أعصناط أمعع 132 بصفتها قيمة فرضية (]1061811) هنا. وهذه دالة سينية 
(01021ع51) (ذات شكل 5). الشبيهة بالدالة اللوجيستية» ولكنها ممركزة ومقاسة. 
كما يستخدم التفعيل «الخطي» دالة الربط البسيطة للذاتية (106211]9) الخطية التي 
يستخدمها انحدار المربعات الصغرى (11687655108 50112165 ]35ع.آ /010[158315). 
وأخيراًء هناك التحول الغاوسي (681055180) الذي يستخدم دالة 62 لتحويل المزج 
الخطي ل 5:*. و«التان»» والتفعيلات الغاوسية كلاهماء يسمحان للنموذج بضبط لا 
خطيات معقدة في البيانات. وإذا استعملنا فقط دالة التفعيل الخطيء فسننجز - في 
البدقيقةت اتججدار خبطا معقدا. 

تسمح لنا اللوحة الموالية باستخدام التعزيز الإضافي إلى الشبكة العصبية. وهذا 
يعمل بقدر كبير مثل أشجار التعزيز. ونقوم بمواءمة سلسلة من شبكات عصبية 
صغيرة» الواحدة تلو الأخرى. بحيث تقوم كُل شبكة على مخلفات مقاسة مستخلصة 
من النموذج السابق. ولا بد لهذه العملية - نظرياً - من أنْ تعمل على تحسين التنبق. 
ويخبرنا معدل التعليم النموذج بالنسبة التي يجب أنْ تُعدّل بها الترجيحات. استناداً 
إلى معلومات حديئة محصل عليها من النموذج السابق. وإِنَّ معدلات التعليم الأكثر 
انخفاضاً تخفض من معلومات جديدة» وتدمجها أكثر مع تقديرات أقدم. وتنتج 
معدلات التعليم الأكثر ارتفاعاً (القريبة من 1) ترجيحاً أكبر لبيانات جديدة. 
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الشكل رقم 3.11: منصة إطلاق عصبية في برنامج الغامب برو. 


00 00 و التوافق» بابل إلن 2 ِ التئاسب. كما 
البيانات التخاصة الى يتيقل للها انر : 


وبعد ذلك» توجد سلسلة من الخيارات المضبوطة ضبطاً دقيقاً. ويشير «تحويل 
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المتغيرات المشتركة» إلى تحول آلي» يستطيع «الغامب» إحداثة في متغيرات المدخل 
لتصحيح الانحراف. ومن ثم العمل على «تطبيع» المتغيرات. ويمكن هذا أن يجعل 
الشبكات العصبية أكثر دقة» ويوصى به على هذا الأساس. ثانياً: يتم توفير خيار 
«تناسب قوي» (110 ]5ناط80) بالنسبة إلى النتائج المستمرة: :هذا يقل تأثير 
الحالات النشاز في البيانات. لقد سبق لنا أن قمنا بتسجيل الدخل الذي يضع حذا 
لهذا المشكلء ولكن لا نفرّط في الخيار تحسباً لأي طارئ. ومع ذلك تبقى «طريقة 
الجزاء» (246]500 602149) طريقة أخرى للاحتراس من الإفراط فى التدريب فى 
البيانات من خلال فرض «معلم الجزاء» على التقديرات. ونحدد هنا الشكل الوظين 
لهذا المعلم (ويمكن الوصول إلى قيمة المعلم نفسها بواسطة الصلاحية)؛ والقيمة 
الفرضية (121016ع10) هي مربع معلم الجزاءء التي نستخدمها إلا في الحالتين التاليتين: 

أ. وجود عدد كبير من المتنبئات. 

ب. الاعتقاد في أن بعضها أكثر تأثيراً بكثير من غيرها في النموذج. 

وفي هذه الحالة» ينصح باستخدام إما الشكل المطلقء أو الشكل المتلاشي 
للترجيح (202ه1 لإدءء(1 أداعز»/17). 

تستخدم الشبكات العصبية قيماً أولى مولّدة عشوائياً للبداية في عملية تناسبية 
البيانات» وتعديلها مع مرور الوقت. كما يعطي ضبط «عدد الدورات») 01 5ءطدهنال2) 
(101115” للبرنامج. تعليمات لونتاج عدد من الشبكات العصبية المنفصلة 21216مع5) 
(71615 81تناءلل» مستخدماً قيماً أولى عشوائية مختلفة للترجيحات. ومن هذه 
الشبكات. ستتم عملية اختيار النموذج الأنسب لبيانات الصلاحية. وبسبب عدم 
استقرار النماذج العصبية المشار إليها أعلاه» سيكون هذا خيار جيد انّخاذه. وعلى 
الرغم من أن ذلك سيزيد من وقت التشغيل. إلا أنه لابُدَ للنماذج المتعددة من اشتغالها 
دائما فن أجل الحصول على تتامنت تحيد: 

وبعد تشغيل شبكة عصبية» تظل قيمة المخرج المفترضة من «الغامب» ضثيلة 
جداً (الشكل رقم 4.11)» إذ تتألف. ببساطة. من إحصائيات التناسب. وتعادل 17 من 
شبكة عصبية ذات نتائج مستمرة» تحديداء نسبة من نسب *11 من انحدار المربعات 
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الصغرى: إنها نسبة التباين في النتيجة التي يبرزها النموذج. وعلى نحو مماثل» تعد 
7 المنتجة من أجل الشبكات العصبية ذات نتائج ثنائية أو فئوية مطابقة لنسبة شبه 
مربع (872) المحسوبة من أجل نماذج وحدة احتمالية (]52061) أو لوغاريثمية 
(1.0816) (وفي هذه الحالة شبه مربع مكفادين 00-17ناء25 1101200685). ويتم 
تقديم إحصائيات الصلاحية لكل من نموذجي التدريب والاختبار. وعلى المرء 
مراقبة الفوارق بخاصة فى التناسب بين هذين النموذجين من أجل تحديد ما إن كان 
تناسب النموذج مفرطاً بشكل كبير؛ فإذا كان نموذج ما مفرطاً في التناسب فإن ذلك 
يعني - عادة - أن نموذجاً إضافياً سيكون أكثر تناسباً مع مجموعة الصلاحية. 
ويتفوق «الغامب» في تصور البيانات» كما لا تستثنى الشبكات العصبية من هذا. 
وإن إحدى خيارات القائمة (في مثلث القائمة بجانب النموذج) وهو الرسم البياني 
(منهعةن0) الذي سيقدم تمثيلاً بصرياً للشبكة العصبية الذي شغلتها منذ قليل. 
ولاحظ وجود ثلاث رموز مختلفة» تظهر في عقد طبقة خفية. وتشير هذه الرموز إلى 
دالات التفعيل الثلاثة التي استخدمناها في هذا النموذج من نماذج الشبكة العصبية. 


إن عملية نقر المثلث الأحمر في أعلى اليسار نافذة المخرج (الشكل رقم 4.11 
بجانب النموذج)» وانتقاء «إظهار تقديرات» (125]1138165 /511018)» سيعرض مكافئ 
تقديرات المعامل (0061101686) بالنسبة إلى كل المغلمات (1615ا1”9130) في 
النموذج. وإن القيام بذلك. يبين العتمة (/08611) الشهيرة للشبكة العصبية المشار 
إليها أعلاه. وعلى الرغم من عملية التعليم التكرارية التي تسعى إلى بنائه» فإنه بإمكان 
الشبكة العصبية المحصل عليها - مثلها مثل انحدار ما - أن تمثل بصفتها معادلة 
معقدة وحيدة. وفي الأخير إن ما تم القيام به هو تقدير مجموعة من المَعْلمات. ومع 
ذلك فإن ذلك يمثل مجموعة كبيرة من المَعْلمات؛ ذلك بأن الشبكة العصبية أعلاه 
مثلء قدرت حوالى 200 منها. ويمثل العديد منها كميات من قبيل العلاقة بين العقدة 
الثالثة الخفية في الطبقة الأولى؛ والعقدة الخفية الخامسة في الطبقة الثانية. وتعد هذه 
- طبعاً - نتيجة الخلاصات المتحولة لمدخلات ترجيحية قبلية» وبالتالي لا يمكن 
تأويلها بشكل منعزل. ويدمج هذا المعلم بمعلمات أخرىء ويخضع لتحول رياضي» 
ليصير تأثيره في متغير النتيجة أكثر غموضاً. ويصدق هذا على كُلَ المَغلمات في 
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النموذج. ولا معلم من هذه المَعلمات يملك معنى خارج ظهوره الخاص في الهندسة 
الكاملة للشبكة العصبية. ولهذا السبب. وعلى الرغم من أن الشبكات العصبية - 
بمعنى رياضي - شفافة بشكل كامل (1173115081621 لا[عا1م0012) ( لإمكانية التعبير 
عنها كمعادلة): فإن العلاقات التي ترسمها مستعصية جداً على التأويل. 
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الشكل رقم 4.11: مدخل من شبكة عصبية في «الغامب برو» (مع تصور ما للشبكة). 

ومع ذلك,. فإن «الغامب» ضمّ سمة؛ تساعد على معالجة العيب. وكما تقوم 
بذلك مع نماذج الانحدارء فهي تقدم مجموعة من سمات «المحلل» (:2:0116)؛ 
التى تمكن الباحث من استكشاف العلاقات الهامشية بين المدخلات المتنوعة 
والمُخرج. 
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ويمكنا محلل السطح» (28:011165 111906ا51) من البحث في تمثيل ذي ثلاثة 
أبعاد للبيانات (الشكل رقم 5.11). وسيكون محور واحد - الذي هو 2 بطبيعة 
الحال- دائماً متغير النتيجة. أما المحوران الآخران؛ فيمكننا وضعهماء وهذا يسمح 
لنا بفحص العلاقة ذات الاتجاه الثلاثي بين متغيرين اثنين ومتغير الاستجابة بالنسبة 
إلى إعدادات متنوعة لكل المتغيرات الأخرى. ويمكن تحريك هذا الصندوق تحريكاً 
ثلائي الأبعاد» ليتسنى لنا رؤية زوايا متنوعة للعلاقات اللا خطية. وهذه تمثيلات 
مصقولة للعلاقات المتنبأة من النموذج. وللحصول على فكرة حول كيفية تناسبية 
البيانات الحقيقية مع هذاء اختر الخيار الحقيقي البارز مع050آ هه00ام0 أدبذاعم) 
(35866موى.. وسيرسم هذا نقاط البيانات الحقيقية في الفضاء الثلاثي الأبعاد. إلى 
جانب العلاقة المتنبأة. 





الشكل رقم 5.11: التوصيف الثلائي الأبعاد للبيانات 
باستخدام الغامب بروا لمحلل السطح. 
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الجدول رقم 1.11: الدخل المتنبأء استناداً إلى العرق والجنوسة المحسوب 





باستخدام محلل «الغامب برو). 
نساء الفرق 
أبيض 0 ظآظ2 2,9 0[ '[ؤظ2ظ 
أسود 00[ظة, 3ه 7[ 
لاتينى 0 *ظظآ”ظ, 2ه 8'آظ 
أسيوي 0 'آ2ظ2 0 *ظهذ2ظ 0 





ويسمح لنا المحلل (8:01116) البحث في كيفية تأثير كُلّ متغير - عندما يتحرك 
على طول مداه - في العلاقة بين كل المتغيرات الأخرى والنتيجة. كما يسمح لنا هذا 
الخيار تحديداء بالاطلاع على مدى نجاعة الشبكات العصبية في رسم خريطة 
اللا خطيات المعقدة في البيانات. كما تمكننا أيضاً من رصد التأثيرات الهامشية 
بشكل واضح للغاية. ويمكن للباحث وضع كُلَ المتغيرات الأخرى في كميات 
الفائدة» وبعد ذلك تبديل متغير فردي على طول مداها. يمكننا ذلك مثلاًء من رؤية 
تأثير العرق» والجنوسة» والدخل الشخصيء وتقييم الفوارق الجنوسية في الدخل 
استناداً إلى العرق. وبين الأشخاص البالغين سنّ 35 في منطقة الجنوب الأطلسي 
(الأكبر)» المزاولين لعمل بدوام كامل (40 ساعة في الأسبوع؛ 52-50 أسبوعاً في 
العام)» هناك من ولد في الولايات المتحدة» ولهم هيبة مهنية متوسطة (40)» وفي 
الفئة المتوسطة للتحصيل التربوي بالنسبة إلى السكان (كلية ماء انعدام الشهادة أو 
الدرجة العلمية)» قمنا بحساب القيم المتنبأة للدخل استنادا إلى العرق والجنوسة 
(الجدول رقم 1.11). 

تذكر أننا بصدد تثبيت معظم المحددات القوية الحقيقية للدخل (ساعات 
وأسابيع العمل والعمرء والوظيفة» والتعليم)» الذي من خلاله يعبر مساوئ سوق 
العمل عادة عن نفسه. ويقدم لنا هذا - بدمجه مع حقيقة حوزتنا لنسبة *1 تقدر ب 60. 
في بيانات الصلاحية - سبباً وجيهاً لأن نكون واثقين من أننا نشهد فوارق حقيقة على 
مستوى العرق والجنوسة» عوض خطأ المواصفات. وقد سمح لنا «الغامب» من رؤية 
نمط معقد بشكل واضح لتحديد مشترك للدخل استنادا إلى العرق والجنوسة» من 
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دون تحديده بشكل واضح في النموذج. وإن تفاعلات من هذا القبيل» تتولّد بشكل 
آلي بواسطة نماذج الشبكة العصبية. 

وتعد الشبكات العصبية لوغاريثمات مألوفة ومرنة للغاية بالنسبة إلى التنبق 
بحيث يمكن استعمالها في تنبؤ نتائج مستمرة: وثنائية» وذات فئة متعددة؛ وتقوم بهذا 
بدقة متناهية. كما تستعصي على التأويل بشكل مألوف. على الرغم من أنها تنتج 
كميات» شبيهة بشكل مباشر بمعاملات الانحدار. ومع ذلك. وبدمجها بسمات من 
قبيل محلل «الغامب برو»» يمكن استخدامها لفحص علاقات هامشية مهمة, ولو أنه 
في الوقت الحاضرء لا يمكن إنتاج متوسط التأثيرات الهامشية. 

وفي الفصلين المتتاليين» سننتقل إلى فحص سلسلة من الطرق غير المراقّبة من 
أجل دراسة العلاقات في البيانات. 
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(لفصل الثانى عش 
التجميع 


تم استحداث تحليل التجميع (158ع:15©) لمعالجة حالة مألوفة جداً فق 
البحث. قد تظن أن حالات في بياناتك - مدنء طلبة» أطفالء أو نقابات العمال - لا 
تمثل عدداً متناثراً عشوائياً بسيطاً من الترصّدات الفردية» ولكنها تصف بشكل أفضل» 
باعتبارها مجموعات ترصدات. وما نريد القيام به هو فصل حالاتنا إلى فئات أو 
تجميعات (0115]655) من الحالات؛ أي القيام بما يشير - بمعنى من المعاني - إلى 
النوع البسيط والطبيعي جداً من النمذجة الاجتماعية» أي النوع الذي يقوم به كل 
واحد بشكل ثابت» وعلى أساس مخصص في حياة اجتماعية منتظمة. ولكننا نريد 
القيام به بدقة» وتطور نظريء ودعم تجريبيء أكثر مما يتم القيام به على نحو طبيعي. 

كيف يتسنى لنا - إذن - تشكيل تجميعاتنا؟ وكيف يتسنى لنا تأكيد أن التجميعات 
التي نشترطهاء هي الأفضل - في الحقيقة - أو حتى طريقة لائقة لتصنيف بياناتنا؟ 
إجمالء نحن نسترشد بالنظرية» ونسبة من الترصد: تذكر أنواع طلبة بول ويليس 
(178/11115 اسحوط) (1977)) في كتابه تعلم العمل اه ط»هط 10 1.647711:1) أو تصنيف 
إيسبينغ أندرسون (0ء15ء20ى - عدأم55) (1990).: لأنظمة الرعاية الاجتماعية في 
كتابه العوالم الثلاثة لرأسمالية الرعاية الاجتماعية ع#بتراء17 إن كك1م!7 11766 :11) 
(1/41157م 0 ؛ أو إذا كان لدينا ميل أكثر إلى التحليل الكمي» ستقترح - ربما - طريقة 
من طرق جمع حالاتنا التي تستخدم متغيرين أو ثلاث متغيرات» وبعدها نبحث عن 
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التثبت من أن الحالات داخل تت تجميع ماء هي ممائلة - في الحقيقة - من حيث متغير 
نتيجة ما ذي أهمية (من خلال استخدام أنوفا (87101778).: أي تحليل التباين أو 
الانحدار» لمتغيرات وهمية (/آ1(111010)»: على سبيل المثال). 

ويمكن اعتبار تحليل التجميع أكثر قوة» وطريقة متطورة من طرق التوجه نحو 
إنتاج فئاتء وتأكيد وجود فئات. ولكن تقوم بذلك من خلال التأثير ليس فقط في بعد 
أو بعدين من الخصائصء ولكن في أكبر عدد ممكن تحتويه بياناتك» وتراه ذا صلة؛ 
وكما أن تحليل التجميع. «يؤكد» وجود هذه الفئات عبر استخدام كُلَ المتغيرات 
المحددة» وليس فقط عبر استخدام هدف متميز أو متغير نتيجة. وأخيراً يسمح هذا 
التحليل بلعب هذه البيانات التجريبية دوراً كبيراً في توليد الفئات» عوض خضوعها 
لهيمنة النظرية (على الرغم من أن النظرية؛ تلعب دائماء دوراً من الأدوار). 

التماثل والمسافة 


نقوم بتوليد الفئات في تحليل التجميع من خلال تجميع الحالات معاًء التي تعد 
متائلة بحسنا مجموغة محدؤة نزلفا من 'الميزات المياشبة» المشكلة لمتغيرات 
المُدخل (1/8180165 انامم1) بالنسبة إلى روتين التجميع. والآن» ما الذي يشكل 
التماثل (51:01131110)؟ رياضياًء يكون ترصدان اثنان أكثر مماثلة» إذا كان لديهما قيماً 
متماثلة بالنسبة إلى عدد كبير من المتغيرات المّدخلة المحددة. أو بالنسبة إلى 
جميعها. وهذا أمر بديهي إذا كان لدينا متغير واحد فقط» ولكن التفكير فيه يصبح أكثر 
صعوبة عندما تكون لدينا مجموعة كبيرة من المتغيرات. ويدخل هذا ضمن مسألة 
تحديد مفهو م المسافة (ع1215682©6) في الفضاء المتعدد الأبعاد 110 
(عع83م5. 


إن لدى الرياضيين طرقاً عديدة لوصف المسافة (لكن لحسن الحظ إن الطرق 
الأكثر شيوعاً التي تحسب بها المسافة في تحليل التجميع؛ مألوفة لدينا جميعاً ممن 
درس الهندسة فى الثانوية: المسافة الإقليدية (ع©1015682 1:110110692). دعنا نقول إن 
لديك بعدين ونقطتين في هذين البعدين» ونريد معرفة المسافة بين هذين النقطتين. 
الجواب السهل عن هذاء هو أن هذه المسافة تقدم بواسطة الخط المستقيم ]دأ8[ة5]5) 
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(156.آ الأقصر بين هذين النقطتين؛ ففي الهندسة التي درسناها في التعليم الثانوي» 
رسمنا النقطتين كليهما على مستوى ديكارتي (عمواط صواوع:02)). وبعد ذلك 
استخدمنا نظرية فيثاغورس (11601617 29/168280169372) لإيجاد طو لالط الأقصر 
الذي يربظهماء أي بين نقطتين 8 و4 الذين يُحَدَد كُلْ واحد منهما بإحداثين اثنين ,*) 
ل( نهد المساقة هه خوك 


“زور د ولز) + 8« معد)ل.- )8 به ) عنع48 


ولكن ماذا لو كان لدينا أكثر من بعدين؟ إن الشيء الرائع هو أن هذا الأمر لايهم 
- بحيث تعمم هذه الطريقة على ثلاثة أبعاد. وعشرة أبعاد» و32 بعد. وستكون للحالات 
المماثلة مسافات إقليدية» صغيرة تفصلهاء بغض النظر عن عدد الأبعاد المحددة. 
وإذا ما أردنا معرفة - المسافة - ما بين نقطتين 8 وله فى حيز (©30م5) محدد بأربعة 
إحداثيات (0 ,2 ,لا ,يغ). فسيتم تحقيق ذلك من خلال ما يلي: 


*(وك -مك) + 2(وع - بع) + 2(ويز - مبر) + #(وك - مرعال- (8 بها عنع4 


كما يمكن أيضاً استخدام أنواع أخرى من المسافات. وقد تستخدم مسافة 
مانهاتن (مماأقطصة]81) أو ((مجمع المدينة» (1ء01-810))).: التى تعد مجموع 
القيم المطلقة للفوارق بين قيم المدخل. أو نستطيع استخدام مسافة ميتكوفسكي 
(8/11601511) التى تعد تعميماً لكل من مسافتى «إقليدس» ومانهاتن على سلطات 
عليا؛ أو نستطيع أخذ ارتباطات متغير (0015561241055) 18513016) بعين الاعتبار 
مستخدمين مسافة ماهالانوبيس (31312122015). 


نقاط القوة العامة للتجميع 
يمكن أن يكون تحليل التجميع مثمراً بشكل كبير لغايات استكشافية وتوكيدية 
(زه]3 موه 2)؛ ففى الحالة الاستكشافية» يبدو أن ليس لدينا فكرة ثابتة بعد بشأن 
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المجموعات الفرعية التى قد تصنف داخلها الترصداتء أو ما إن كان بإمكان هذه 
المجبرعات أن تسو يدكل كمس إن التجميع سمخ تابحق غرة المجمرغات 
الكامنة في البيانات مع الآخذ بعين الاعتبار الخصائص الهامة» كما يمكن أن يخبرنا 
- بطريقة أو بأخرى - ما إن كانت يياناتنا مجمعة أصلاً. وإذا كان الأمر كذلك» فكيف 
تختلف هذه التجميعات الأساسية؟ ومن ناحية أخرىء ربما لدينا نظرية ما حول 
المجموعات الفرعية القائمة. وفي تلك الحالة» يمكن استخدام التجميع لتحديد ما 
إن كانت نظريتنا مدعمة تجريبيا من قبل بياناتنا وما مدى الدعم. ربما هناك طريقة 
أفضل (أو ربما سنستكشفها) لعملية تصنيف حالاتنا إلى فئات. 

هناك استخدام آخر ممكن للتجمع ويتمثل في استكشاف بنيات التغاير 
(0017811820)) المختلفة في أجزاء مختلفة من البيانات. وإجمالا عندما نحلل 
علاقات بين المتغيرات - فى انحدار خطى. مثلاً نبحث عن علاقات خطية قائمة فى 
البيانات برمتها؛ أو في الغالب. نولّد متغيرات تفاعل قليلة لبلوغ إمكانية أن تقوم هذه 
العلاقات على متغيرات أخرى. إن التجميع يسمح لنا بالذهاب إلى أبعد من ذلك؛ إذ 
عبر التجميع يمكن إيجاد حيز فرعي من البيانات» تكون العلاقات فيه بين متغيرين هو 
8. في تجميع لء مثلاء و24. - في تجميع 8. وهذا يعني أن العلاقة بين المتغيرات 
مختلفة في قطع مختلفة من بياناتناء وأنه بإمكاننا (استخدام تجميعات لتوليد 
مجموعات معقدة من متغيرات التفاعل لإدراجها لاحقا في نماذج انحدار. ويشبه 
هذا الاستخدام للتجميع - بشكل كبير - نمذجة المزيجء الذي سنناقشه لاحقا). 

نظرية الاعتماد 


مع ذلكء من المهم التركيز على أهمية اختيار المدخلات في تحديد الفئات. إن 
تحليل التجميع ليس وصفة سحرية للكشف عن التجمعات (0101081285©) في 
العالم؛ بل إن ما ينتجه بشكل كامل» هو دلالة من دلالات ما يضعه الباحث فيه. وسواء 
تشابهت حالتان أم اختلفتا من حيث مساهمتهما الإقليدية» فإن ذلك يتوقف على 
المتغيرات المحددة» وإذا ما غيرت هذين المتغيرين» فستغير آليأء المسافات بين 
الحالات» وفى نهاية المطاف - شكل التجميعات التى تظهر فى النهاية. ومن 
الأمانى الاخمار ستارة الأبغاه الت تشينها مهعة قن سوال سك رترقيلها دا في 


308 


مجموعة متغيرات المدخل. وإن تحليل التجميع - في هذه الحالة - شبيه بالتحليل 
العاملى (221(/515ى 1201015). وتحليل المكون الرئيسى 26ع02م2ه00 [2مأعمصط) 
(وأوتراقضم الذي يحدد فيه اختيار المدخلات» المكرناك المحددة أو العرامل 
الناتجة. 

تجدر الإشارة إلى أن لكل متغير في تحليلات التجميعء تأثيراً مماثلاً في تشكيل 
التجميعات. ومهم أخذ هذا الأمر بعين الاعتبار لسببين: 


السبب الأول فيتمثل في احتمال أنك لا تظن أن كل متغير يجب يكون مهماً 
بشكل مماثل لاعتبارات نظرية. وربما تريد أن تكون بعض المتغيرات 
أكثرترجيحأبشكل كبير من غيرها. 

السبب الثاني: أحيان تستخدم أكثر من متغير واحد لالتقاط بعد معين أو حقيقة 
اجتماعية؛ إذ يمكن التعبير عن التشكيل العرقى لمدينة ما - مثلاً - فقط عبر مجموعة 
مراك نه سرف ل امسق مج ا 00 


وسيكون لهذا البعد العرقي ترجيحاً كبيراً في تحديد التجميعات مثلما يقوم به 
عدد المتغيرات المستخدمة. ولأنها ممثلة بثلاث متغيرات أو أكثر قد تغمر قياسات 


أخرى (مثل حجم الساكنة التي يمكن التقاطها بمتغير واحد فقط). 


ثمة عدد من الأعداد الفرعية المختلفة لتحليل التجميع» ولكننا سنركز هنا على 
أربعة منها متاحة فى الغامب (11/5): 


. التجميع التر اتبي (عمتتعأكن01) لدعتطءهوة111)‎ ٠. 
. )17 تجميع معدل- ع! (115]611118ن) قموء72/1‎ © 
. المزيجات العادلة (5ع18/1:26015 221ه81)‎ © 
. خرائط التنظيم الذاتي (5م1/2 مما تاسدع 01 11ع5)‎ © 
ولكل تحليل من هذه التحليلات نقاط قوة ونقاط ضعفء التي ستناقشها بعد‎ 


٠. حين‎ 
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التجميع التراتبي 

في هذه الطريقة» نبدأ حالاتنا جميعها بشكل منفصل وفردي - فكر في كُلَ حالة 
باقعا رما تمه عكر ا الواء عقيو منيه ]+ ون امل .هذ اشيم 3 د 
التجميعين الأكثر قربا ونقوم بتجميعهما داخل تجميع أكبر. ونكرر عملية ربط 
التجميعين الأكثر قرباًء في كُل خطوة إلى أن نحصل - في النهاية - على تجميع 
واحد وكبيرء يحتوي على كُلَ الحالات داخله. ومن ثم. فإن التجميع التراتبي هو 
إجراء تكتلى (262811076ه1ع28). يولد خلال هذه العملية أي عدد ممكن من 
المجايعات يد والكددوغدد البدالاع فى الياناثوقكرن السمعاتت سارف 
المنهي عله ماقا قل الحداية عرق معن الت لام تستداغلة يماييتها داعا 
تجميعات اكير مششكل لانتقاء ونيت توضيح كيفية تمع الخالات بعد المعلومة 
في رسم بياني معروف باسم الرسم البياني الشجري (10620087872). 

لقد ناقشنا سابقاًكيفية تحديد مدى اقتراب حالتين أوترصدين فردين أو تماثلهماء 
ولكن التجميع التراتبي عادة ما يربط ليس فقط حالتين وإنما تجميعين» بحيث يحتوي 
كُلْ تجمع على حالات متعددة. فكيف تحدد المسافة بين تجميعين؟ هناك أربع طرق 
لحساب ذلك في «الغامب» بحيث (يجب اختيار واحد منها من قبل المستخدم منذ 
البداية). 


© يعرّف التجميع ذو الربط الواحد (510816-11018286)» المسافة بين تجميعين 
باعتبارها الحد الأدنى للمسافة بين أي عضو من أعضاء التجميع الأول وأي عضو من 
أعضاء التجميع الثاني. 

» وفي المقابل يعرف التجميع ذو الربط الكامل (ء8هلصانآ-أاء[مسم0). 
المسافة باعتبارها الحدّ الأقصى للمسافة بين أي من العضوين من أعضاء هذين 
التجميعين. وتعد هذان الطريقتان لتحديد المسافة حساسة بشكل كبير لحالات 
النشاز (010]11©155). 

© كما يعد التوافق الحاصل بينهما تجميع متوسط الربط (عع28كلطانآ-عع 2اء تش ) 
الذي يستخدم متوسط المسافة بين كُل أعضاء التجميعين. 
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© أما تجميع ربط الجناح (وعهكلصنآ 17300). فهو أكثر يدا ذلك بأنه يمزج 
التجميعين الذين سينتج اتّحادهما أصغر نمو إجمالًا داخل تباين التجميع؛ كما تم 
تحديد ذلك من قبل دالة ما (عادة مجموع خطأ المربعات). 

وفي آخر التجميع التراتبي» وكما تم الإشارة إلى ذلك آنفا لن يكون لدينا عدد 
من المجموعات المنفصلة؛ وإنما كتلة كبيرة من الحالات المترابظة معاً بشكل 
تراكمي. ولكن تتجلى فكرة التجميع في خلق مجموعات متميزة. كيف يمكن لنا 
تفسير الكتلة الكبيرة من الحالات إلى تجميعات منفصلة كنا بصدد البحث عنها؟ 
وكيف يحدد عدد المجموعات التى يجب أن تكون هنالك؟ 


إِنَّ االجواب عن السؤال الثاني سيساعدنا على الإجابة عن السؤال الأول. وتذكر 
أن التجميع التراتبي يولّد أي غدد من التجميغات بين 1 وء بحيث إن الأخير عدد 
الحالات في بياناتنا. وفي نهاية المطاف. يتوقف علينا البث في عدد التجميعات 
الواجب حيازتها. ولكن لدينا دليلاً نستنير به في هذا القراره من خلال مراقبة الرسم 
البياني الشجري وتاريخ التجميع. وبعد تشغيل رولين تخب تراب سيت إخاج رمدم 
البياني الشجري في «الغامب». وإذا حوّلْتَ مقياس الرسم البياني الشجري إلى 
مقياس المسافة (مثلث أحمر مقياس الرسم البياني الشجري مقياس المسافة)» 
فسيوضح هذا مقدار المسافة النسبية التي تم عبورها لربط تجميعين. وفي ظل ذلك. 
سيُولّد رسماً بيانياً (5101) ركامياً مستطيلاًء والذي سيرسم بيانياً النظام التسلسلي 
للتجميع من خلال المسافة بين التجميعات المترابطة. وفي كُل من الرسم البياني 
الركامي والرسم البياني الشجريء. نسعى إلى تحديد « نقطة فاصلة طبيعية» التي في 
حدودها تزداد المسافة بين التجميعات بشكل سريع (وهذا شبيه باستخدام رسم بياني 
ركامي لتحديد عدد العوامل المستخدمة في التحليل العاملي (8181(/515 536101). 
ويمكن القيام بهذا أيضاً رقمياً بفحص تاريخ التجميع. 

إن جوابنا عن السؤال «كم عدد التجميعات»؟ يجيب بدوره عن السؤال «ما هي 
الحالات التي تدخل ضمن 13 تجميع ؟21. ولأن الحالات ترتبط ارتباطا تسلسليا 
حسب المسافة التى تفصلهاء فإننا - ببساطة» ومن خلال اختيار عدد التجميعات - 
نبت فى المكان المثالى الذي تقف فيه عملية التكتل. وستكون الحالات في أي 
تجميع كانك» قل خلك باق هذه المرحلة: / 
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يُوصَّى بالتجميع التراتبي أساساً بالنسبة إلى مجموعات البيانات الصغيرة» ذات 
0 حالة أو أقل من ذلك. وفى الحقيقة» هذا مثالى بالنسبة إلى بيانات من هذا 
الحجمء بما أنها أقل حساسية لتأثير حالات النشاز في مجموعات البيانات الصغيرة» 
مقارنة بطرق أخرى ستناقش لاحقاء خاصة تجميع معدل ا-. وبهذه الأعداد الهائلة 
من الحالاتء يميل التجميع التراتبي إلى أن يكون مكثفاً حاسوبياء وتُفضّل طرق 


أخرى. 
الت لتجميع التراتبى فى «الغامب» 


سنقوم باستخدام التجميع التراتبى لتجميع محافظات الولايات المتحدة فى 
مجموعة بيانات انتخابات عام 2012. والآن» لاستخدام التجميع التراتبي في الإطار 
الأنسبء. قمنا بانتقاء - بشكل عشوائى - فقط عدد صغير من المحافظات (275 


ةا 
نقوم بفتح مربع الحوار (1(12108) للتجميع: 0978213]6اآن/1 < 26ئ[19ةم) 
(تعأمنطان < ولمطاع81ا. 


وفى هذه النوافذ (الشكل رقم 1.12)» يحدد التجميع التراتبي باعتباره الافتراض 
(]1ناقء12) ضمن خيارات (11035م0) في أسفل اليسار. ويسمح البرنامج باختيار 
دلالات (110025ء102) الربط» وننتقي الجناح (18850). أما خيار البيانات الموحدة أو 
المعقدة (ع51382031012 10363). فيتم التحقق منه» وهذه سمة لطيفة. لأننا نريد أن 
تكون المدخلات على مقياس واحد. 

وننتفى كمتغيرات مُذّخَلء نسبة المحافظة التى تُعرّفٌ بغير البيض المنحدرين من 
الأسبان» ونسبة الحاملين لدرجة الباكالوريوس أو درجة أكبرء ومعدل الفقرء 
والخوارزمية الطبيعية للكثافة السكانية» ونقرنا فوق (016)» يعطى عملية الانطلاق 

ويتم إنتاج الرسم البياني الشجري والرسم البياني الركامي. وتاريخ التجميع» 
بشكل تلقائي» وسنستخدم هذه الرسومات البيانية (018115)» بالإضافة إلى تاريخ 


التجميع. لاختيار تجميعاتنا. ونقوم بتكييف الرسم البياني الشجري ليعكس 
المسافات (المثلث الأحمر > الرسم البياني الشجري > المقياس > المسافة) 1©0) 
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(ععصماوادآ < علوء5 < تسقترعم1لمء12 < عاعمة11» ولجعل التجميعات متميزة 
بصرياً (مثلث أحمر > تجميعات اللون > مثلث أحمر > تجميعات العلامة) 1264) 
(كاءأكن1© علتهل! < عاعصمدة1 لع] زوع و01 :0010 < عاعصون ]1 . 


أما الرسم البياني الشجري والرسم البياني الركامي فهما مبينان في الشكل رقم 
12.. 


نج قيزر - ومتاع وك 177 
ععدااهبا ملاونت عبهة عدصك عبد أهذذ؟ عزونمم ودتمداء ‏ 











“م48 لم ! 


الشكل رقم 1 ا منصة إطلاق التجميع في «الغامب بروا. 


وسيساغدنا هذا التصور على اختيار عغدد التجميعات التى ستحتفظ بها. وثمة 
علامة صغيرة في شكل مَعِين (60زةط0-5تدسةذ©) في أعلى الرسم البياني 
الشجري وأسفلها. وبنقل هذا يمينا ويساراء يكون من الممكن تغيير عدد التجميعات. 
كما يمكن أيضاً البحث عن الرسم البياني الركامي - عن مكان بدأت فيه المسافة بين 
التسنيعات في الارتفاع يشكل ديد لامجلاو - نحو النهاية» أي خمس حالات مزج 
من أقصى اليمين. وهذا عدد جيد لتجميعات نهائية. وللتحقق من أن هذا اختياراً 
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جيداًء يمكن النظر إلى تاريخ التجميع: الذي يظهر في «الغامب» تحت الرسم البياني 
الشجري (ولكن غير مبين هنا). ونبحث عن نقطة تبدأ فيها المسافة بين التجميعات 
في الارتفاع بشكل أسرع من ذي قبل. وهنا يتطلب المرور من خمس تجميعات إلى 
أربعة عبور مسافة 85.61 في حين يتطلب المرور من ستة تجميعات إلى خمسة عبور 
مسافة 0.07 فقط وهن ثم تسيقر عدد خمس تجمغات كتحل جيد. 


وبمجرد الحصول على عدد التجميعات التى تريدهاء يكون من الممكن حفظ 
التجميعات (مثلث أحمر > حفظ التجميعات) (5لعأقد!/© ع00ة5 > عاعصدة1 220 ). 


<< 





الشكل رقم 2.12: رسم بياني شجري يصف تجميع الحالات المستخصلة من 
روتين التجميع الترابي اللغامب بروا. 


314 








ويستنتج هذا متغيراً جديداً في البيانات يدعى «التجمع» وقد تويك ايض كمظ 
ترتيب العرض (0106151 1015013 5396) الذي يعمل على حفظ ترتيب الحاللات في 
الرسم البياني الشجري القائمة من الأعلى إلى الأسفل. ويمكنك بعد ذلك استكشاف 
مدى اختلاف المتغيرات على مستوى التجميع» الذي يبين معنى التجميعات 
(الجدول رقم 1.12). وفي هذه البيانات ومن بين عيناتنا التي تصل إلى 75 حالة» 
يكون لتجميع [» النسبة الأكثر انخفاضا للسكان المكوّنة من البيض غير الإسبان» 
وأعلى معدل الفقر والكثافة السكانية الأكثر انخفاضاً. أما تجميع 22 فلديه نسبة عالية 
نسبياً من البيضء والكثافة السكانية» ومتوسط المعدلات الخاصة بالفقر والبالغين 
ممن لهم تعليماً جامعياً. وأما تجميع 3» فله أدنى نسبة من السكان. ممن بحوزتهم 
شهادة جامعية» ومعدل فقر عالي نسبياً وكثافة عالية - إلى حدّ ما - من البيض. 
ولتجميع 4 أكبر نسبة من البيض. وذات كثافة سكانية منخفضة للغاية. وأخيراً يضم 
تجميع 5» محافظات لديها في المتوسطء ساكنة بحوزة بالغيها تعليمأ عالياً وكثافة 
سكانية عالية» ومعدل فقر منخفض. 





أبيض 7 5 | 85.656 | 88.47 | 91.22 | 79.81 
تعليو غالي /1 ٠١‏ | 16:85 | 1195-2127 يه |3597 
معدل الفقر | 20.45 | 11.21 | 17.12 | 9.15 | 6.518 








الكثافة (©10) 
السكانية 2.07 455 331/6 201 53.66 
أوباما / 41108 2312 2162 2012 1000/1 
2 10 18 16 20 11 


الحدول رقم 2 : خصائص التجميعات المنتجة بواسطة التجميع التراتبي. 


وأما معدل التصويت لصالح أوباماء فكان الأعلى في تجميعي 1 و5» مما يوافق 
النتائج التي عرضناها سابقاًء التي مفادها أن حصة التصويت لدى الديمقراطيين في 
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المحافظة» تميل إلى تكون أكبر من المحافظات المتنوعة عرقياء وفي المحافظات 
ذات مستويات تعليم عالي. ومع ذلك» تذكر أن المحافظات التي قمنا بضمها هنا 
تمثل مجموعة فرعية عشوائية صغيرة (حوالي 2.5/ عينة)» ومن ثم فإن التعميم الذي 
يقوم على أساس هذه الاستنتاجات يجب أن تتناول بحذر. وفي القسم الموالي؛ 
سنستخدم تقنيات تسمح بضم كُلْ المحافظات. 


تجميع معدل ع|- 

يختلف تجميع معدل ع- الإجراء الأكثر شيوعاً - نوعاً ما - عن التجميع التراتبي. 
والأهم من ذلكء عدم تداخل التجميعات في معدل 1-. أي إن التجميعات الكبرى 
لا تضمن التجميعات الصغرى بأي حال من الأحوال. وعلى العكس من ذلكء ينتج 
تجميع معدل 1- (وهذا في الواقع يصدق على الشكلين الآخرين من التجميع الذي 
سنناقشه) عددا معينا من تجميعات مميزة (1(1561616)» وذلك بتقسيم البيانات إلى 
أجزاء متقطعة عوض جمعها كتلة. وإن عدد التجميعات غير محدد باعتباره نتيجة 
لعملية التجميع؛ ولكن لا يد من تحديده من قبل الباحث مقدماً. وأخيراًء من الأرجح 
أن يجد تجميع معدل 6- أكثر من التجميع التراتبي» حلولاً أقل مثالية» تحتاج نوعاً ماء 
إلى عمل رقابي من لدن الباحث. 

وفي بداية تجميع معدل عا-. يحدد الباحث 1 الذي يشير إلى عدد التجميعات 
التي ينبغي إيجادها في البيانات إلى جانب مجموعة متغيرات المدخل. ويستمر 
البرنامج في انختيار نفاط !- بشكل عشوائي في حيز متعدد المتغيرات. (وفي أغلب 
الأحيان. تقوم بهذاء من خلال اختيار مجموعة نقاط أو حالات البيانات الحقيقية. 
وتصبح هذه النقاط مراكز (أو «النقاط الوسطى») (060:0105) للتجميعات. وبعد 
ذلك يحسب تجميع معدل -. المسافة (الإقليدية) بين كُلَ حالة» وكل نقطة من 
النتقاط الوسطى و«تخصيص» حالة النقاط الوسطى الأقرب. ونحصل من ثم على 
نقاط وسطى ! بحيث يحيط بها اسحابة» مشوهة من الحالات وبعد ذلك يجد تجميع 
معدل 1-» المعدل أو المركز لكل سحابة من سحابات النقطة (ومن غير المرجح أن 
يكون المعدل هو النقطة المختارة فى البداية) ويجعل هذه النقاط. نقاط المركز 
الحدرن. بوتتية الاتار ات انها اتن يفك -وزلك حساك السنانات» وتخصيضن 
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حالات للنقاط الوسطىء وإيجاد نقاط المعدل» وتحويل النقاط الوسطى, مراراً 
وتكراراً إلى أن يقارب البرنامج حلاً مستقراً. وفي هذه النقطة» لدينا مجموعة من 
تجميعاك 16+ بيك يتكؤن كل والحد منها عن عداد معيرة من التحالات. 


والسؤال البديهي الذي يرجى حله. هو كيفية الشروع في اختيار عدد التجميعات 
التي نريدها. هناك جوابان ممكنان عن هذا السؤال. يمكننا اختيار قيمتنا ل ! وفق 
نظرية من النظريات. قد نختار ثلاثة أنظمة من أنظمة الرعاية الاجتماعية للدولة - مثلا 
- إذا استرشدنا بتصنيف ((1900108) إصبينغ - أنديرسون (0ع75ء0د0ك -ع صامد8) . 
ومع ذلكء قد يكون هذاء أو قد لا يكون عدد التجميعات المثالية المحصل عليها 
بشكل تجريبي. مما يحيلنا على المقارنة الثانية. وفي هذا الحل» نستمر في عملنا مثل 
مختص حقيقي في التنقيب في البيانات» ونجرب عدداً من القيم المختلفة ل»! (عادة 
على نطاق معين»» وانتقاء القيمة التي يكون فيها الحل الأفضل. 

ولكن كيف يتسنى لنا معرفة الحل «الأفضل»؟ في الواقع» ثمة نوعان من 
إحصاءات التناسبء يمكن الاستعانة بهما لتحديد ذلك. أما نوع الإحصاء الأكثر 
إفادة فى هذه الحالة» فهو نسبة التباين (16310 101551211211597)؛ نسبة المسافة بين 
التجميعات إلى نسبة المسافة داخل التجميعات. وعلينا اختيار عدد التجميعات التي 
تعظم هذه النسبة» والشيء المثير بشأن هذا القياس» هو أن نسبة التباين - وبخلاف 
قياسات تناسب أخرى (مثل مجموع أخطاء المربع) - لا تنخفض آليا لدى إضافتنا 
التجميعات. وإن إضافة التجميعات قد يقلص مسافة التجميعات من الداخل (ويعني 
مزيد من التجميعات؛ أن كُل تجميع سيشغل حيزاً أصغرء ويضم حالات أقل» ولكن 
قل تة أيضاً مسافة التجميع البيني (ويعني مزيد من التجميعات في الحيز المتعدد 
الأبعاد نفسه. أن التجميعات نفسها معبأة بإحكام أكثر). وبالتالي» من المرجح أن 
يكون حل «مثالي» للسؤال الخاص بعدد التجميعات الواجب تحدديها باستخدام 
نسبة التباين. ولكنء لسوء الحظء ع «الغامب» هذه النسبة آليا (كما يجب). 
فعلى المستخدمين حسابه بأنفسهم. أما الطريقة المتبعة في القيام بذلك» فسيتم 
نيا اهنا 


ماهدلا دام انيد الاير على اعجار كل رولك هذا د يتين لنااس علي 
الإطلاق - إيجاد حل مثالي. ولفهم هذاء تذكر كيفية اختيار نقاط التجميع الأولى: 
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عشوائياً. إن عملية دعم العشوائية يساعد على إزالة التحيز الذاتي من الإجراء» ولكن 
لذيها الجودة :غير المناسية المتمكلة فى تدرة إتجادها اتحل السب لمشكل ها كما 
تساعد عملية التكرار عبر الخوارزمية لنقل نقطة المركز - لا محالة - على تصحيح 
ذلك إلى حدّ ماء ولكن يبقى الحل النهائي - مع الأسف - متأثراً بالقيم المختارة 
عشوائياً في البداية. 

ولندرس ما يلي: ودعنا نقول إن بياناتنا تحتوي على تجميعات ! «حقيقة». ودعنا 
نقول إننا محظوظون, ونختار القيمة نفسها لء! بالنسبة إلى عدد التجميعات الموجودة 
مع برنامج تجميعنا لمعدل !- ويختار البرنامج النقاط المركزية ل >ابشكل عشوائي 
ويشرع في التكرار. ولكنء احتمال سماح العشوائية لنا باختيار النقاط المركزية» 
بحيث يكون لكُلٌ تجميع «حقيقي» نقطة مركزية واحدة» وواحدة فقط داخلهاء مختارة 
على تخو :متخفضن. .جداء إنه' بالأحزى: مثل معرفة وجوه ثمائية حداف دائرية 
(المستخدمين في الرشق بالسهام) (802105» 10811) على حائط ما؛ فإذا رمينا ثمانٍ 
سهام عشوائياً على الحائط؛ فستستقبل - من الأرجح - بعض الأهداف الدائرية سهام 
متعددة داخلهاء في حين لا تستقبل أخرى. أي سهم. 

وإذا كان لكُلَ التجميعات الحقيقية الحجم نفسه (الذي يعد الأفضل بالنسبة إلى 
غاياتناء فإن عدد الطرق التي قد نختار من خلالها نقطة واحدة لكُل تجميع هو !»ا 
(1<23...1). ولكن عدد الطرق التي نستطيع من خلالها اختيار نقاط عل هي “! 
(مع افتراض أن حيزنا المتعدد المتغيرات كله هو في منطقة تجميع من التجميعات). 
وهذا يعني - عموماً - أن احتمال اختيارنا لنقطة واحدة لكُل تجميع 
(1/ !عا -5) منخفضء ويهبط أكثر عندما ترتفع عدد التجميعات (انظر الشكل رقم 
2 وبمجرد أن تكون لدينا خمس تجميعات» يهبط احتمال الاختيار الأولى 
لنقطة واحدة من النقاط الوسطى لكُلَ تجميع؛ إلى 0.038 وعندما تكون لدينا 11 
تجميعاًء تكون لدينا احتمالات تصل إلى حوالي واحدة في 10.000. 


ولقد تمت الإشارة إلى ذلك سابقاء إن نقل النقط الوسطى بشكل متكررء يساعدنا 
- إلى حدّ ما - ولكن لا يضمن الالتقاء عند حل مثالى. وتكون الاحتمالات أكثر 
الكروي» - وستكون الاحتمالات في البيانات الحقيقية - على الأقل ستتم مصادفة 
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مشكلة من هذه المشاكل. وستتم طرق معالجة هذه المشكلة» ذات تجميع معدل 1 





الشكل رقم 3.12: احتمال انتقاء نقطة وسطى واحدة لكُلَ تجميع «حقيقي» بواسطة 
عدد التحميعات «الحقيقية». 

أولاً: نستطيع داخل أي قيمة معينة ل »ا؛ القيام بمحاولة تقليص مجموع أخطاء 
المربع؛ وتعظيم نسبة التباين. ويشمل ذلكء إعادة تشغيل الخوارزمية عدة مرات؛ 
سعياً إلى البحث عن الحل «الأفضل»؛ لكن أيضاً سعياً إلى البحث عن الحلول التي 
تتكرر - بحيث تنتهي الحالات نفسها في تجميع واحد مراراً وتكراراً. 

ثانياً: يمكننا استخدام طرق التصورء بالبحث عن الحالات النائية عن المركز 
التي قد تنحرف عن النتائج» ومراقبة التجميعات نفسها لفحص ماء إن كان الحل 
ممكنا (بيسمح «الغامب» بالنظر إلى حل التجميع ذي الرسوم البيانية ل مكون رئيسي 
ثنائي أو ثلاثي الأبعاد). 


ثالثاً: يجب علينا تذكر أن وجود أي عدد من التجميعات «الحقيقية» فى بياناتناء 
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هو أمر غير مرجح تماماً. ومن الأفضل اعتبار حلول التجميع بمثابة استدلال 
(1150165نا11): نسترشد بها لتبسيط البيانات والبحث عن الأنماط المهمة» عوض 
الكشف عن الطبقات الخفية للحقيقة. ومن ثم؛ إذا صح ذلكء فإن نسبة (صحة» حل 
التجميع سيكون نسبياً دائماً. وعلى نحو مماثل؛ قد تكون هذه النسبة «خاطئة». 


لقالاع 






كعام؟ مثما ك000ناام) لعزعماع5 أكق) 


عالطممعم] |عممسامع رلا 


)عطوتطلء 
كمعكمممم!ا! 
5_امممعم] 


501 غمة بكع ناا أهدممل! بوملع اكد كمدعاءة-! 

راهب ألما لعاهع5 كلامكنااه > 

ل ل ا 

الشكل رقم 4.12: اختيار تجميع معدل غ1- في 


تجميع معدل ؟1- في ١الغامب»)‏ 

سنستخدم بيانات انتخابات 2012 على مستوى المحافظة (التي استخدمناها في 
التجميعات التراتبية) لإنجاز تجميع تجميع معدل عل[ ولكن سنستخدم هذه المرة 
4 محافظة برمتهاء عوض استخدام عينة صغيرة منها. ويتم ذلك من خلال فتح 
البيانات» وإيجاد العلبة الأولى لحوار التجميع (<80 1012105 1151138 6) (الشكل 


2320 




















رقم 4.12). وفي القائمة المندرجة تحت الخيارات في الزاوية السفلية اليسرى» نغير 
الإعداد من التراتبية (1681ا:111673) إلى معدل >1 (05ع1-21). ونقوم أيضاً 
بتحويل متغيرات المدخل عبر اختيار تحؤل جونسون (118115101712 1011115013): مما 
يطبّع المتغيرات المنحرفة؛ ويكبح جماح الحالات البعيدة عن المركز. ونقوم 
باستخدام مجموعة متغيرات المدخل نفسها التي استخدمناها بالنسبة إلى التجميع 
التراتبي» ولكن نضيف حضة أوباما من التصويت؛. ونسبة الساكنة السوداء» وذات 
الدخل المتوسط. وتفتح منصة إطلاق التجميع التكراري 15161028 عاللهره11) 
(213]101331 تاء نم1 ( وتلا طلاع على ظهوره العام؛ انظر الشكل رقم 7.12 في الفصل 
الموالي): 
ننتقي عدداً من التجميعات - أو عوض ذلك - مسافة بالنسبة إلى >1. وتمكن 
البرنامج من منخنا نتائج بالنسبة إلى التجميع 3 والتجميع 5 (غير فبينة). كما أنه أيضاً 
فكرة جيدة لاستخدام انحرافات فعيارية داخل التجميع» لأن ذلك سيساعد على 
حساب الإحصاءات التئاسبية لاحقا . 
لقد استخدمنا الساكنة بأكملها ل 3,441 محافظة: ونرى في الشكل رقم 5.12 أن 
معظمها انتهى بتجميع واحد (تجميع 2). ولدى العديد من التجميعات المولدة 
الأخرى أعداداً صغيرة من الحالات. وقد يعني هذا: 
1. أن بياناتنا غير قابلة للتجميع» أو 
2. أنئا اخترنا العدد الخاطئ للتجميعات» أو 
3. أننا وجدنا احلاً محلياً» غير مثالي» أو 
4. أن بياناتنا الحقيقية تتألف من مجموعة كبيرة من حالات مماثلة ذات مجموعات 
متباينة استثنائية. 
ويمكننا التحقق من هذا من خلال إغادة إجراء التحليل. ولكن لاحظ أنه إذا ما 
قُمنا ببساطة؛ ١بإعادة‏ إطلاق التحليل» (815/إلهصة داعملاهاء1) فستخدم قيم البذور 
نفسهاء وستحصل على حل متطابق. إننا في حاجة إلى البدء من الصفر للحصول حل 
ولإنتاج مجموع أخطاء المريع بالنسبة إلى التموذجء نئقر المثلث الأحمر 
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المجاور ل"3- 111516[ 110 25و11 1" ونختار حفظ التجميعات (15]615ا1 © 5836). 
وسينتج هذا عمودين جديدين : مهمة التجميع؛ وعمود يدعى المسافة (عع1015]80): 
التي تعد مسافة كل حالة مستقلة من نقطتها الوسطى (081:010©). وننتج عموداً ثالث 
الذي يقوم بتربيع هذه المسافات. وبعدهاء نحسب معدل متغير مربع المسافة» ونضربه 
في عدد الحالات في التحليل. وهذا هو مجموع الأخطاء المربعة. 


3عرعككس61ل! كمدءاة )7ك 
3005 ابعل 510 )عأكنال-0|ذثااا عذنا ب/زأ أن ل ]المآ لعاقع؟ كنتوناه) 
50001131 ععأكنا) ك4 
ع0 مع انام اكه 
0١3 16 24 0‏ 
0 2 
8 8 
كةء | ,عاونا ك 
“عقاط6م 51601906 قتعدطت ورلاممءم كوعلمممها #زواطلء ‏ عازطبوعم بعنكبت 
5- 01389045- 12323663 0.6253437- 17185925- 024401959 097505188 1 
1 005269747 007714976 00041018- 008513217 003458119 00868893- 2 
04- 151596272- 06291022- 110114552 01398114- 15127389- 134662458 3 


الشكل رقم 5.12: مُخرج معدل - في «الغامب بروا. 


ولإنتاج نسبة التباين (الجدول رقم 2.12): نحصل فيء أولاً على إحصائيات 
وصفية أساسية (المعدل والانحراف المعياري) لكُلّ متغير مدخل على حدة. ومن 
خلال استخدام هذه الإحصاءات الوصفية - بعد ذلك - إلى جانب النتائج المدرجة 
تحت «المقياس الأصلي لمراكز التجميع» (عل3ء5 أهصاع 05 5تعادعن) #عاوبات) 
لكل متغير» نحسب نتيجة -2 لمركز التجميع. وسيكون هذا مختلف عن معدل 
تجميع «تحوّل جونسون)». ونحسب المسافة الإقليدية بين كُل مجموعة من 
مجموعات نتيجة -2 لمراكز التجميع؛ واتّخاذ الأصغر من أصل هذه المسافات 
باعتباره قياس المسافة بين التجميع. وبعد ذلك. نجد لكل تجميع؛ المسافة القصوى 
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لحالة ما إلى النقطة الوسطىء. وأخذ متوسط هذه المسافات القصوى باعتبارها قياسنا 
للمسافة داخل التجميع. وللحصول على نسبة التباين» نقسم مسافة بين التجميع على 
مسافة داخل التجميع. 

ويفترض هذا التحليل» تفوق حل التجميع الرابع قليلاء على حل التجميع الثالث 
والتجميع الخامس. وإن الأرقام العالية بالنسبة إلى متوسط الحدّ الأقصى لمسافة 
داخل التجميع» يمكن أن تتأثر بحضور الحالات الشاذة في البيانات. إن معدل 
المسافات التجميعات أصغر بكثير. ونستطيع استكشاف هذه الإمكانية من خلال 
فحص رسم بياني ثنائي» ثلاثي الأبعاد. وسيوضح هذا كيف أن الحالات والتجميعات 
منظمة في الحيز الثلائي الأبعاد. والمحددة بالمكوّنات الأساسية الثلاثة الأولى 
لمتغيرات المدخل. ويمكن توليد هذا من خلال فتح القائمة بجانب حل التجميع 
الذي نهتم به في فحص واختيار الرسم البياني الثنائي الثلاثي الأبعاد (10631مذ8). 
ونعرض الرسم البياني الثنائيء الثلاثي الأبعاد لهذا التحليل في الشكل رقم 6.12. 
ويكشف الرسم البياني عن بنية بياناتنا. ولم تتجمع الحالات في مناطق متفرقة جداء 
بل إنها مجمعة في انّجاه مركز الحيز بشكل عام (في تجربتناء تُعدَ هذه أكثر شيوعاً من 
البيانات «المجمعة» بشكل واضح). وكل تجميع أيضاً لديه حالات متعددة مخصصة 
له التي تشكل حالات استثنائية بشكل واضح. 

إن حل التجميع الرابع في هذه البيانات» تحدد محافظات مختلفة (الجدول رقم 
2؛ ففي: 

التجميع الأول: لدينا مجموعة صغيرة من المحافظات القوقازية بشكل كبير» 
وفقير جداً في المتوسط. وكان لدى هذه المحافظات أدنى معدل دعم لأوباما في 
العام 2012 من أصل كُل التجميعات. 

التجميع الثاني: فيشكل غالبية السكان البيض - ولكنه أقل كثافة سكانية - ذات 
متوسط دخل أعلى» ومعدل فقر أقل. وإن حصة أوباما من أصوات في هذه الدول 
كانت أعلى شيئاً ما من التجميع الأول. 
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التجميع الثالث: فهو التجميع النموذجي. وإنه مُتَنوْعَ إثنياً بقدر أكبر من كُل من 
التجميع الأول أو الثاني» ولديه معدل فقر قريب من المعدل الوطني. 
التجميع الرابع: نجد فيه محافظات متنوعة إثنياًء لها العديد من طلبة الجامعة» 
ومتوسط دخل عالء ولها كثافة سكانية عالية نسبياً (حوالى 375 شخصاً فى الميل 
تعره 
الجدول رقم 2.12: إحصاء التناسب بالنسبة إلى تجميع معدل عا-. 


3 4. 253,043 : 230013 203 
4 26 : 7ط 223) 


5 208 : 33ظ 275) 














تمازجات عادية 

إن التمازجات العادية (5ع1/41<005 71050221) وتمازجاتها العادية المتينة 
(1111565غ117 11012121 أوناط160) الشقيقة شبيهة للغاية بتجميع معدل »إ-. ويكمن 
الفرق الرئيس في تخصيص الحالات للتجميعات. وفي تجميع معدل ع!-. يتخصص 
كل حالة تجميع واحد. وفي المقابل» تقوم التمازجات العادية بحساب احتمالية أن 
تكون حالة معينة في كُلَ تجميع. ويقوم النموذج أولاً برسم خريطة الحيز بمجموعة 
من التوزيعات العادية متعددة المتغيرات التي تعمل بصفتها «تجميعات». وستكون 
لكل حالة قيمة معينة في توزيع عادي متعدد المتغيرات للتجميع. وكما هو الحال 
بالنسبة إلى معدل عإ-. فإن النقاط المركزية لهذه التجميعات تتكرر إلى حين إيجاد 
حل مستقر» ولكنه محلي» احتمالاً. 

الشيء الجميل بشأن التمازجات العادية هو أنها تنج - كجزء من مخرجها 
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الأساسي - مصفوفة تباي التغاير لمتغيرات المدخل بالنسبة إلى كُل تجميع. ويسمح 
لنا هذا بالبحث في كيف أن الارتباطات بين المتغيرات» تختلف بين التجميعات؛ 
ويمكن أن تساعد إذا أردنا تحويل حل تجميع إلى انحدار مع متغيرات تفاعل. إضافة 
إلى ذلك. إن مسألة اعتبار الاحتمالات تقديرات لكل زوج تجميع - حالة؛ تسمح لنا 
بتحديد حالات على الشريط الحدودي لأن تصبح في تجميعات متعددة. 


وفي «الغامب»» يتم أداء تجميع التمازجات العادية بشكل كبير على النحو نفسه 
التي ينجز به معدل -!. وبمجرد الحصول على منصة التجميع التكراري» غير ببساطة 
«معدل 2-1 إلى «تمازجات عادية» أو إلى «تمازجات عادية متينة». وستظهر المنصة 
كما هو الحال في الشكل رقم 7.12 أو 8.12. 








الشكل رقم 6.12: رسم بياني ثنائي؛ ثلاثي الأبعاد, يبين التجميعات المنتجة بواسطة 
تجميع معدل 1-. 
الجدول رقم 12 8 خصائص التجميعات المنتجة بواسطة تجميع معدل ؛1-. 
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| أسوةة1 | 0.19 | 951 | 1235 | 10.14 _| 








/االقناك ]اما فلعاقع5 كمحناام) 
1 


أعمدظ أدمكثمقون ك4 


إمامولك ععالأن0 











- يكعوبطعاطا! لودل | 0ماءلا 


5)عأكناك أه عووة) اقدهتام0 ..ىع كران أه )عطنونلة 
| 3 


ععوةاءة/ا أقدموة01 5 
#عتكبااة ععألأن0 17 


- ] 


)200 كماع )1 لواو روا 


16-8 611 عوعع روم 


التكراري. 


وتظهر هنا بعض الفوارق انطلاقاً من تجميع معدل ا-. ولاحظ أن البرنامجين 
كلاهما يسمحان بأعداد مختلفة من «الجولات»؛ من أجل التحذير من إيجاد حل 
تجميع محليء من خلال تشغيل البرنامج بقيم بداية مختلفة (<ة]/! 16) (الحذ 
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الأقصى). إن إعداد التكرارات يقيد خوار زمية التهيئة (11128610ام0) بالنسبة إلى 
عدد معين من التكرارات لتسريع المعالجة. 

إن معيار التقارب (والمتاح في التمازجات العادية» ولكن ليس في التمازجات 
العادية المتيئة) يطلع (الغامب» على الاختلاف في الاحتمالية الخوارزمية -108) 
(17000اعكاذ.آ التي تأخذ فيها بعين الاعتبار النموذج المتقارب. وإيقاف عملية التكرار. 


ومتعاسيك مكمه - | 
لاله نكما فعاق؟5 كممسامع | 


كع ]لا» اقتمرملة غكباه 


0 5ع وناك أهعومم اقمهكام90 ...ىئعؤونك 5ه بعطصوسلة 


ععمةوةلا اقممودز0 [1] 


عووعع امن يعطن1 
كنات ] غغع املره 6 
|50 | ععدوعنه ادتالط 
كمه أميع]1 »نوالا 





الشكل رقم 8.12: اختيار قوي لمزيج طبيعي 

مخلوط فى تكرارية منصة الإطلاق العنقودية 
ثمة اختلافات قليلة بين هذين النافذتين؛ إذ لدى التمازجات العادية المتينة 
إعداداً (1128]أ5) لتغطية هوبر (ع00176528) 111101)؛ وهذا تقدير مماثل لتقديرات 
اساندويتش» هوبر- الأبيض المستخدمة في الأخطاء المعيارية المتيئة. ويطلع 
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الإعداد «الغامب برو» على نسبة الحالات التى لا يجب اعتبارها حالاات شاذة 
(01011615).: ومن ثم لا يجب تقليص تحكها: وتسمح التمازجات العادية بخلق 
«تجميع شاذ) إضافي» يستطيع ضبط حالات تقع خارج منطقة أي من التجميعات 
الموجهة للمستخدم. وسيمنع هذا الحالات الشاذة من ممارسة تأثير كبير على المكان 
الذي توجد فيه التجميعات. 

الخرائط المنظمة ذاتياً 


إن معظم الخرائط المنظمة ذاتياً - مثلها مثل الشبكات العصبية - تتعلم 
الخوارزميات» ولكن هذا الأمر ينسحب على برنامج الخريطة المنظمة ذاتيا في 
«الغامب»). إنه شبيه للغاية بتجميع معدل ا-. إن الفائدة العامة للخرائط المنظمة ذاتيا 
في «الغامب»» تتمثل في قابليتها للتأويل. وقد تم تكوينها من أجل أن تظهر التجميعات 
في بنية ذات بعدين شبيهة بالهيكل (بحيث توافق محاورهاء المكوّنين الأساسيين 
الأولين لمصفوفة متغير تباين التغاير). وتعد التجميعات القريبة من بعضها بعضاً أكثر 
تشابهاء وأما التجميعات البعيدة عن نعضنها يعضاء قتعد أكشن تبايناً: 

وإن مايقع تحت الغطاء هو عملية رسم محور ثنائي الأبعاد باستخدام المكوّنات 
الأساسية الأولى» وقطع هذا الحيز إلى عدد محدد من قبل الباحث من مناطق متساوية 
الحجمء وقيم بذور مخصصة لكُلَ منطقة. ويستخدم معدل - لتخصيص حالات 
للبذور ويتم إيجاد المعدل لكُلَ تجميع. كما تشغل الانحدارات - بعد ذلك - لتنبؤ 
المعدلات. لتفضي إلى انتقاء نقاط وسطى جديدة» ومن ثم انحدارات جديدة إلى أنه 


ولبناء خريطة منظمة ذاتياً نقوم أولّا بفتح منصة التجميع التكرارية» وتغيير 
«معدل 22-1 إلى «خريطة منظمة ذاتيا» (الشكل رقم 9.12). وعوض اختيار عدد 
التجميعات. علينا - في المقابل - انتقاء عدد السطور والأعمدة التي نريدها في 
هيكلنا (سيكون عدد التجميعات نتيجة هذين العددين). وبعد ذلك» نضع معلم حيز 
النطاق الذي يؤثر في نسبة التأثير الذي تملكه تجميعات الجيران على تقديرات نقاط 
وسطى. ونختار بناء 23 ذي حيز نطاق أقل من 0.5. 
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إن المطبوع الأولي شبيه جداً بمطبوع معدل 1- وتمازجات عادية (الشكل رقم 
272. ويمكن فحصه لأجل أنماط في البيانات كما هي ولكن علينا معالجة نتائج 
أولية مستخلصة من خرائط منظمة ذاتياً بالقدر الذي فحصنا به نتائج مستخلصة من 
مغدل عل- وتمازجات غاذية. علينا مراقبة إحصائية' التناسب» ونجرب أغداداً أخرى 
من الحالات. وإعادة تشغيلها لتجنب حلول محلية» وهكذا. 








ممم ماز! - ,مك6 كووء ا )! - أموه06 17 
ومأعع كبلك عمنجره 1 ك 


زاأدن 100170 نءاقع5 كممنااة) 





| إعشباءء8/ | :منموعك ,عالآن0 


]ع5 لمطاءاا 


8 عار يج 0ض 


الشكل رقم 9.12: اختيار خريطة منظمة ذاتياً في منصة إطلاق التجميع التكراري. 


وينم إعداد خريطة منظمة ذاتياً بهدف تقليصها إلى بعدين. ونعيد إنتاج الرسم 
البياني الثنائي بإضافة «شعاعات» المتغير (الشكل رقم 12.11). وهذا يساعد على 
توضيح طبيعة الخريطة المنظمة ذاتيا ثنائية الأبعاد ولكن أيضاً يبرز العلاقة الوطيدة بين 
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التجميع» وتحليل المكوّن الرئيسي. أما المكون الرئيسي الأول (محور أفقي) فهو 
مرتبط ارتباطاً وثيقاً بنسبة الساكنة ذات تعليم عالي: ودخل متوسط (بشكل إيجابي)؛ 
بالإضافة إلى معدل الفقر (بشكل سلبي). إن قياسات حصة أوباما من الأصوات» ونسبة 
السود. والكثافة السكانية؛ مترابطة بشكل كبير ومترابطة بشكل إيجابي بالمكون 
الأساسى الثانى (محور عمودي). أما نسبة البيضء فمترابطة (0:718160©) بشكل 
سلبي بهذا المكوّن. ونرى أيضاً أن التجميعات المتنوعة تقع داخل مناطق مختلفة من 
الحيز المحدد من قبل المكوّنات الرئيسة. وبالتالي؛ إن الرسم البياني الثنائي يخبرنا بأن 
التجميع الأول يصف محافظات كثيفة ومتنوعة وثرية نسبيآء والثاني يصف تلك 
المحافظات الأكثر ثراء» ولكن أقل كثافة» وأقل تنوعاً (ومن غير المرجح أن تساند 
أوباما). أما التجميع الثالث. فيضم مناطق محافظات حضرية فقيرة. ويضم التجميع 
الرابع محافظات فقيرة» ولكنها أقل كثافة وبياضا من التجميع 3. 
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الشكل رقم 10.12: مخرج من خريطة منظمة ذاتياً في ١الغامب‏ بروا. 
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بالمتغيرات في خريطة منظمة ذاتياً («الغامب برو»). 


وهذا يبين فائدة استخدام خرائط منظمة ذاتياً بالإضافة إلى مكونات رئيسة 
وشعاعات متغير لتمييز تحليلات تجميع نهائية من حيث التموضع على طول 
استمراريات متغيرات مترابطة فى حيز متعدد الأبعاد. إن تحليلنا لأنماط التصويت لا 
يمثل عرضاً كاملا ولكن بيانات العلوم الإنسانية في تجربتنا مجمعة (6280اقنا/©) 
بشكل نادر وواضح. ومع ذلك؛ يمكن لتحليل التجميع أن يستخدم لتحديد أنماط 


التشابه بين حالاث غلى مستوى مدخلات مهمة نظرياً. 
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(لنصل الثالث عش 
تحليل الطبقة الكامنة ونماذج المزيج 


تحليل الطبقة الكامنة 

تم استخدام تحليل الطبقة الكامنة (515لا481 01355 1.2]671) في بداية الأمر - 
وبشكل بارز - في العلوم الإنسانية من قبل لازارسفيلد (1.228151810) وهنري 
(نإتتء11) (1968). ويعد هذا النوع من التحليل» تقنية إحصائية أخرى فى العائلة 
الأوسع لنماذج المتغير الكامنة (©1.2]6041/851861)) إذ يضم تحليل المكوّن الأساسي 
(1[/515ه مث ]0م2012 21م2:1201)) وتحليل المعامل» و التجميع (1108 ]0115© ) . 


ويمكن النظر إليه باعتباره نموذجاًء حيث يتم فيه تقدير متغير واحد كامن, له 
توزيع فئوي ما. وهذا الافتراض حول عدد المتغيرات الكامنة وتوزيعهاء يجعل 
تحليل الطبقة الكامنة متميزاً عن تحليل المكوّن الأساسي. الذي يفترض وجود 
متغيرات كامنة متعددة ذات توزيع عاديء كما يعد تحليل الطبقة الكامنة في بعض 
الحالات أكثر تماثلا من التجميع ما دام يسعى إلى استكشاف المجموعات الكامنة» 
ولكنها تختلف في ضرورة أن تكون متغيرات المدخل المستخدمة لإيجاد 
المجموعات. فئوية في حالة تحليل الطبقة الكامنة» و(في الغالب) مستمرة في حالة 
التجميع. ومع ذلك؛ يعد تحليل الطبقة الكامنة» قريباً وثيقاً للتجميع العادي 
للتمازجات. لأنه يفترض أن التوزيع المرصود للاستجابات مكون من مزيج توزيعات 
متعددة أكثر بساطة. وأخيرء بما أن تحليل الطبقة الكامنة يعالج البيانات الفئوية 
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للمُدخلء ويقدر احتمال المتغير الفئوي الكامنء فهو أيضاً وثيق الصلة بنمذجة 
اللوغاريثم الخطي. 

8 الغالب» يستخدم تحليل الطبقة الكامنة في تحليل البيانات الوضعية 
للاستجابة المستخلصة من مُسوحات (510107695). لتتصور أننا سألنا مجموعة من 
الناس بشأن موافقتهم على الصلاة في المدرسة» والإجهاضء» وذداج المثليين. 
ويمنحنا هذا مجموعة مؤلفة من ثلاث متغيرات» بحيث يأخذ كُلَ متغير قيمتين 
ممكتتين» فتخصل على :كمائية :أنماط: استجابة مستتجلة. 'تزيد تضتيفت الناس" إل 
طبقات استناداً إلى هذه الأنماط من الاستجابة» غير أننا نظن أن ثمان طبقات. كثيرة 
جداً. ومن خلال تحليل الطبقة الكامنة» نصنف أنماط استجابة إلى عدد أصغر من 
الطبقات الكامنة» محددين ذلك العدد في وقت مبكر. ويسمح لنا هذا بتقدير 
مجموعتين من المعلمات. 

أولاً: تقدر انتشار كُلَ طبقة من الطبقات الكامنة. 

ثانياً: نقدر احتمالية استجابة معينة لعضوية ما في طبقة كامنة. وبمثالنا الموقفي 
هذاء يمكن افتراض وجود مجموعتين - (اللببوالين «الاسفام يا انق 
الاجتماعيين». واستناداً إلى بيانات استجابتناء يمكننا تقدير نسب الأفراد الليبراليين 
اجتماعياء مقابل أولئك المحافظين اجتماعياء كما يمكننا تقدير مدى مساندة المرء» 
مثلء لزواج المثليين؛ باعتباره ليبرالياً اجتماعياً. 

ومن الأهمية التأكيد - مع ذلك - على أن تحليل الطبقة الكامنة هو تقنية غير 
خاضعة للرقابة. ويشترط الباحث عدد الطبقات التي يقدرها النموذجء غير أن الحل 
الذي سيتم التوصل إليه لا يمكن تحديده من الوهلة الأولى. ومن ثم؛ لا نضمنء في 
مثالنا أعلاه - وجود مجموعات مطابقة لتصوراتنا بخصوص الليبراليين الاجتماعيين» 
والمحافظين الاجتماعيين. وعوضاً عن ذلك؛ وكما هو الحال بالنسبة إلى تحليل 
العامل يبقى الباحث هو المسؤول عن تأويل دلالة المجموعات الكامنة استناداً إلى 
توزيع استجاباتها للمدخلات المتنوعة. 


ويفترض نموذج تحليل الطبقة الكامنة قدرة بنية الطبقة الكامنة تفسير أي ترابطات 
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بين الاستجابات فى البيانات. ويعنى ذلكء افتراض أن تكون الاستجابات لمدخلات 
متنوعة» داخل الطعات الكانف مسقل وكا سيق لنا الأشارة إل ذلك على 
الباحث تحديد عدد الطبقات قبل التحليل. ولكن كيف يتسنى لنا معرفة قيامنا باختيار 
العدد «الصحيح»؟ عموماًء يجرب الباحثون أعداداً مختلفة من الطبقات. ويقدرون 
الأنسب للنموذج (على مستوى الاحتمالية اللوغاريثماتية (5000ذاءعع1زنآ-1.08)» أو 
معيار أكايكي للمعلومة» أو معيار بايز للمعلومة» أو 62» أو إحصاء تناسبي آخر). 

ومع ذلكء إن تحديد عددٍ ماء قبلياً للطبقات الكامنة» وعدد أنماط استجابة في 
البيانات» لا يمّكن من تحديد نموذج تحليل الطبقة الكامنة بالكامل؛ مما يعني أن 
تقديرات المَعْلمات المتعددة سيعطى الاحتمالية القصوى نفسهاء أو بعبارة أخرى - 
حال يدلول ختمدكة لمكن معليل: الطقة الكافة لأسي على قر عبائلن. .وهف 
يعني أيضاًء عدم استقرار تحليل الطبقة الكامنة في أغلب الأحيان» كما يمكنها بلوغ 
حلول مختلفة جداًء إذا ما أخذنا بعين الاعتبار القيم الأولى المختلفة. من أجل هذاء 
إن عدد الطبقات الكامنة الممكن تحديدها - مع الأخذ بعين الاعتبار البيانات 
المدخلة - مقيدة. وفي العموم؛ يعد نموذج تحليل الطبقة الكامنة الأفضل من حيث 
القدرة على تحديد أعداد أصغر للطبقات الكامنة. 


للفصل في إمكانية تحديد نموذج ما بالكامل» من الضروري تجربة قيم أولى 
متعددة» وفحص إمكانية تقارب النتائج من الحل نفسه. وعموماء إن نموذج تحليل 
الطبقة الكامنة ذي التناسب الأفضل غير محدد بشكل تام؛ من أجل هذا يمكن تجسيد 
أحد الحلول لهذا الأمر في إنجاز العديد من تحليلات الطبقة الكامنة باستخدام 
البيانات نفسهاء وإيجاد معدلات الحلول. واعتبارا من الآن - مع ذلك - يبقى هذا 
قضية تطرح إشكالية ذات تحليل طبقة كامنة. 


ومن المهم أيضاً الإشارة إلى أن نموذج تحليل الطبقة الكامنة معرضة للتقارب 
على المستوى المحلي بدلا من الحدود العليا العامة (3212:21108 0106021). ويمكن 
حل هذه القضية من خلال محاولة التوسل بقيم أولى مختلفة» ومراقبة إحصائيات 
الاحتمالية اللوغاريثماتية؛ إنها قضية» يمكن تناولهاء أكثر مما يمكن تناول قابلية 
التحديد. 


0. 
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وبما أن تحليل الطبقة الكامنة عمّر لبعض الوقت. فإن عدداً من رزم البرمجيات 
الإحصائية تضم روتينات تحليل الطبقة الكامنة. إن لدى نظام التحليل الإحصائي 
(545) برنامجاً يدعى معالج تحليل الطبقة الكامنة (1.©48 01800)» يقوم بإنجازه 
بسهولة كبيرة. أما «الستاتا» (5]318)» فلا يملك تحليل طبقة كامنة مبنية داخلياء بل 
يوجد برنامج مولد من قبل ا لمستخدم. يمكن - لسوء الحظ - تشغيله فقط بنسخ 
الطبعة الخاصة أو المعالجة المتعددة للستاتا (217 0 58 5]8]8:5): وليس فاصل 
الثقة (©1). ومن الممكن أيضاً استخدام حزمة غلام (6113050)» المولّدة من قبل 
المستخدم لإنجاز تحليل الطبقة الكامنة. وإن غولدن الكامنة (5ع0010 6)مع]ة.]1) 
متغير كامن أخرى. وهى سهلة الاستخدام لسع -نوون]). 
ولدى «18) عدد من الحزم التي تنجز تحليل الطبقات الكامنة» بما في ذلك 
تحليل المكون المستقل (1.08). والنموذج الخطي العام (110اع). (ونبين هنا كيقية 
إنجاز تحليل طبقة كامنة فى «12» مستخدمين حزمة تحليل الطبقة الكامنة المتعددة 
(1-61815 300 112261) (001.)4). وسنستخدم هذه لتحليل استجابة البيانات انطلاقاً 
من المسح الاجتماعي العام (516ا/17///3.01.018//0055+5//:م1ط). 
لقد قمنا بإعداد البيانات في وقت مبكرء بحيث انتقينا ست أسئلة» من خلالها تم 
استفسار المشاركين في الاستطلاع عن شعورهم حول نفقة الحكومة على مواد 
متنوعة: البيئة» والجيش. والرعاية الصحية» والمدن» والجريمة» والعلم. إذا كان 
الجواب ب 
1. على كل مادة» فيعنى ذلك أن المبحوث (1865000206026). يرى عدم إنفاق 
الحكومة ما فيه الكفاية؛ فى حين إذا كان الجواب ب 
2. فيعني ذلك, المعدل العام الذي تنفقه الدولة. وأما إذا كان الجواب ب 
3. فيدل ذلك على أن الدولة تنفق كثيراً. وقد ضمّنا أيضاً مادة تمزج سؤالين: 
© منْ منّ المبحوثين الذين صوتوا في العام 2008؟ أو 
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وأخذت الإجابات رمز 1 بالنسبة إلى أوباماء والرمز 2 بالنسبة إلى ماكين» والرمز 
3 بالنسبة إلى رأي آخر. ونحمّل البياناتء ثم ننزل ونفعّل حزمة تحليل الطبقة الكامنة 
المتعددة في 18 على النحو الآتي: 
(معاع1ه]) لتقو طط1آ 
(«512.0138_ووع») 20.015ع1->85550213 
(8550219) طعهاج 
(«كن)[هم») دععهاعدم.الماقما 
رخ ).آمم) نكتقنتط زا 
وبعد ذلك» نحتاج إلى ربط المواد التي سنستخدمها لونتاج الطبقات الكامنة. 
وحفظها في موضع يدعى 52*. وتراجع النموذج عن متغير المتراضي. لأسباب 
ستصبح أكثر وضوحاً أدناه في نقاشنا حول انحدار الطبقة الكامنة. 


1-- (21100/,611116,5016116,701608,ع:1116311,171131 ,11 كع )1111:0->252 


وبمجرد القيام بهذاء يمكن للباحث تشغيل البرنامج باستخدام السطر الواحد 
للرمز (أو الشفرة (©6©006)) التالى: 
(أ لفط - قطمقاع ,1000 -1ة]27:1ج ,2 > 201355 ,5550218 ,252<) خثن).[مم-كلدع1 


وكما ذكرنا آنا إن 52: هو الموضع الذي نحفظ فيه نموذج الطبقة الكامنة. 
ود البيانات ب8550818 . ونحن بصدد تقدير نموذج ثنائي الطبقة (2 - 1855ه[8). 
إن خيار الماكسيتر (0011018) 184237167) يحدد العدد الأقصى للتكرارات لتعظيم 
الاحتمالية والرسوم البيانية - كاذب (:141515) يقوم بإطفاء/ إيقاف الرسم البياني 
للدالة («م10أعضباط عمنطم0173). وستكون هناك الكثير من التكرارات لإيجاد حل 
الاحتمالية القصوى بالنسبة إلى نموذج ثنائي الطبقة. وعندما نزيد في عدد الطبقات» 
سنكون مضطرين للرفع من عدد التكرارات. ونشغل هذا النموذج عددا من المرات 
بأعداد مختلفة من الطبقات الكامنة لإيجاد أفضل تناسبية للبيانات (الجدول رقم 
13). 
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لاحظ عدم إشارة الإحصائيات التناسبية - بشكل لا يتطرق إليه الغموض- إلى 
عدد مثالى للطبقات. وإن معيار بايز للمعلومة يتجه من الخلف إلى الأعلى بعد خمس 
لكاشم سين إلا معان اكاك الوسدر ملار يدا من الوقت عقن الى بعك 
سبعة طبقات). أما بخصوص الإحصائية التناسبية التي تختار الاستماع إليهاء فذلك 
شيء من قبيل دعوة الحكم في حضور أنصار الطرفين. ولغايات تتمثل في التقتير» 
نختار نموذج خماسي الطبقات. 

يملك حل خماسي الطبقات انتشاراً طبقياً يشير إليه شريط الرسم البياني :88) 
(5ام6:3 في الشكل رقم 1.13. كما تصادف الطبقات 4 و5 و1 على نحو شائع 
جدأء بنسبة سكان تتراوح ما بين 20/ و25/. أما الطبقتان 2 و3» فهما أقل شيوعاً إلى 


حد ما. 
الجدول رقم 13.1: انتقاء عدد الطبقات لأجل 
رقم الاحتمالية معيار أكايكي معيار بايز 0 
الطبقا اللوغاريثمية للمعلومة للمعلومة 

2 9 13,945 2,953.77 2.02 2,06 
3 1-0 27546.80 2*1 8 244 
4 4 1521 - 27,/69.88 22.75 2,6 
5 1-09 27.717.982 2102 06و21 
6 1-0 27692.01 51 2 9 2223 
7 1-7 ( 2763.74 21 4 2,043 
58 06 -- 27.682.122 2515 205 
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طبقة 5 طبقة 4 


طبقة 3 


طبقة 2 


طبقة 1 


025 


الشكل رقم 1.13: توزيع حالات الطبقات الكامئة في تحليل الطبقة الكامئة. 
الجدول رقم 2.13: احتماليات الاستجابة المشروطة بالطبقة انطلاقاً من تحليل الطبقة 


المدن 


الرعاية الاجتماعية 


اللبيتن 


الكامنة. 


طبقة 1 
02352 
00 
8 ) 


016 
02256 
02968 
00999 


07 
0,6 
0257 
04 
0951 
0115 


0558 


2339 


طبقة 2 
006 
0607 
020247 


01151 
)058 
0105 
01216 


02 4 
06241 
0196 


0266 
0,15 
061053 


0611719 


طبقة 3 
0202271 
0022 
017 


0220 
01429 
046 
)235 


00/0 
01169 
00 


026 
0331 
0244 


00 


طبقة 4 
05043 
0100 
0127 


0299 
0402 
0262 
0/07 


0435 
0307 
0265 


02238 
0,609 
0223 


005 


طبقة 5 
00438 
0029 
02263 


020066 
0215 
01237 
02002 


0238 
0,106 
006 


0140 
02257 
0023 


441 


اعتدال 2 75 0.3176 0.4250 0.1387 
تناقص 111 0.0646 0.2024 0.0945 0.0171 


العلوم تزايد 5 0.2203 0.3384 0.4735 0.4033 
اعتدال 6 0.7028 0.5091 0.4165 0.5347 
تناقص 9 0.077 0.1526 0.1100 0.0620 


انتخابات 2008 أوباما 3 0.6295 0.6204 0.8872 0.6015 
ماكين 0002 01952 0.1295 0.0646 0.2887 
آخر / غير 


0.1098 0.0482 0.2502 0.1753 4 


وتُعرّض احتمالات الاستجابة المشروطة في الجدول رقم 2.13. وكما تمت 
الإشارة إلى ذلك سابقاًء إن «معنى» الطبقات يحتاج إلى تأويل من لدن الباحث» 
ونسعى جاهدين للقيام بذلك هنا؛ فمعنى الطبقة 1 واضح جدا - وبتعبير بسيط» فهي 
تمثل المحافظينء الذين يفضلون الإنفاق على البيئة» والمدن. والرعاية الاجتماعية» 
والإنفاق أكثر على الجيشء» ومحاربة الجريمة. وقد ساندوا ماكين (0نه32100) على 
حساب أوباما بهامش يصل إلى أكثر من 12 إلى 1. أما المجموعات الأخرى. فكلها 
من مساندي أوباما الذين بلغت نسبتهم - وهو الأمر الذي لا يدعو إلى كثير من الغرابة 
- حوالي 57/ من مجموع الحالات. (لقد فاز أوباما بحوالي 54/» وهذه المادة تضم 
مساندة الممتنعين عن التصويت). ولكن يحمل مساندو أوباما أولويات مختلفة. 
ويمكن وصف الطبقة 2 باعتبارها تضم وسطيين راضين (0604515]5 52115160)) إذ 
يرون إنفاق الحكومة معتدلاً في المجالات الستة كلها (ولو أنهم يرجحون أكثر» 
أفضلية الإنفاق على البيئة أو الجريمة أكثر من أشياء أخرى). أما أعضاء الطبقة 03 
فيمثلون بشكل مثير للانتباه» الليبراليين المناهضين للمدينة هو6:نا-تاصة) 
(65315ط1.آ. ويفضل هؤلاء الناس مزيداً من الإنفاق على البيئة» والفقرء والجريمة. 
ولكنهم يتجاوبون سلباً مع موضوع الإنفاق على المشاكل التي تواجه المدن؛ كما 
يفضلون الإنفاق على الجيشء ويساندون - أكثر من غيرهم في الطبقات الأخرى - 
الأطراف الثالثة» أو عدم انَخاذ قرار. أما الطبقة 4 فتضم. التقدميين (28087©5517©5)) 
بحيث يساندون أوباما على أعلى معدل ويفضلون الزيادة في الإنفاق على قضايا 
بيئية. وهم وحدهم من يرون رفع معدل الإنفاق على العلوم» وعلى أي شيء آخرء 
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عدا الجيش. وأخيراًء يبدو أن الطبقة 5» تضم أناساً يفضلون. الإنفاق أكثر على 
مكافحة الجريمة» وتنظيف البيئة» والرعاية الاجتماعية. ويمكن اعتبار هؤلاء 
الليبراليين ممن يتبنى التوجه الحكومي, ذلك بأنهم يميلون - بشكل متزايد - إلى 
الإنفاق على الجيش أيضاًء في حين يعارض معظم مساندي أوباما هذا التوجه. 
يعتبر هذا تحليلاً متسرعاً وقذراً للغاية. وبطبيعة الحال أنه بإمكاننا الحصول على 
طبقات متنوعة من خلال ضم متغيرات مختلفة؛ وتكون النتائج احتمالية وأكثر إيحائية 
منها قطعية. وداخل معظم الطبقاتء كان يتخذ الناس مواقف مختلفة عن الموقف 
النمطي بشأن أي مادة معينة. علاوة على ذلكء تعد هذه النتائج غير مستقرة بخاصة؛ 
فعندما كنا ندير مزيداً من النماذج خماسية الطبقة ذات قيم أولى مختلفة» حصلنا على 
خلول مختلفة إلى حدٌ ما وفى كل خل؛ هناك مجموعة مخافظة واضيحة» 'ذات 
اعكماليات الحجابة سائلة دا لتلات المذكورة أعلاه (على الرغم من أنها لم تكن 
تمثل دائماً الطبقة 1) ولكن تتنوع المجموعات التي تفضل أوباما من حيث ملفاتهم 


الشخصية المحددة. 
انحدار الطبقة الكامنة 


يعد انحدار الطبقة الكامنة امتداداً لتحليل الطبقة الكامنة» وهذا النوع من الانحدار 
لا يصنف فقط الحالات إلى عدد محتمل من الطبقات المحددة سلفاً» وإنما يستخدم 
أيضاً المتغيرات المشاركة (0078118]65) لتنبؤ عضوية الطبقة. ويجعل منها هذاء 
مماثلة للغاية لنموذج المعادلة الهيكلية» وتعمل بالأساس على النحو الذي يعمل به 
تحليل الطبقة الكامنة. مع انحدار متعدد الحدود (1/110112012181) متصل به. 

وفى 16» من السهل جداً تحويل تحليل طبقة كامنة إلى انحدار طبقة كامنة» وذلك 
باستخدام بيانات المسح الاجتماعي العام (655) أعلاه. ولكن في هذه الحالة - 
ومن أجل التقتير - نفترض وجود فقط ثلاث طبقات كامنة. 
)لخر -(01608؟,ر11,1115211,97/611216,211101/,0111116,5016110ت2ع) لقطااع-> 2 ويز 


عماخلع 27 مع نكزع 181025 
( كلش طدتسطمةطع,1212:161-5000, 5550213,21255-3 , 7)52) ث ن)آ[0م-> 1و1 


لاحظ أن الاختلاف الوحيد في الرمز عن تحليل الطبقة الكامنة المنجز في وقت 
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سابق» هو تراجع المتغيرات الموقفية المحددة بالعمود بباسطة عن متغير اعتراضي. 
وإن برنامج «تحليل الطبقة الكامنة المتعددة» يؤول هذا الرمز باعتباره يحدد نموذج 
انحدار صفري (21006[1 1687655102 111ال2). وعند إضافة المتغيرات المشاركة. 
تستخدم المتغيرات المحددة بالعمود في توليد احتمالية عضوية الطبقة» ثم تتراجع 
عضوية الطبقة عن متغيرات التنبؤ. إن انحدار الطبقة الكامنة يقدم لنا صورة» ليس فقط 
عن توزيع المواقف السياسية» وإنما أيضاً عن الترابطات الممكنة لكُل مجموعة. 
(الجدول رقم 3.13). 


الجدول رقم 3.13: تقديرات المعلم المتنبئ لعضوية 
الطبقة في نموذج انحدار الطبقة الكامنة. 


612551 62022 03 


01 022 001 022320 122625 لمم لظ 
0,521 007 0555 21 51[ 
0207 001 0235 116 
0207 03045 07 11 كناك 
05,6 02065 025058 ع1 151[ 
0215 0207/1 072 106125 
0261 02,19 01203 ا015 
0,659 02626 02771 1112125 27/1 
045 01002 9 0200 أطعة اكنال 
0103 016602 009 10625 
00200 020521 0,81 111 (ونعاناان! 
00 02530 0.4 غخطع 3 أكنا[ 
04 03349 01025 حدات مده 
009 0/459 0252021 1125 عا 
05006 01,726 0,62 خطعذ: اكنال 
0/05 025 01017 125 
0270 002 02214 1115 ع5 
4 0 069 0538 خطع ا اكنال 
0227 028 0058 065 
050 07,701 057 ةنا 0 2003 ومتاعع8[1 
0574 0175 028 اهكان 
00226 0224 45 علتناكطن/ 062 
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ويمنحنا الحل ثلاثى الطبقة.» مجموعات تشكل 36/: 31/» و33/ من السكان» 
عن ,لقال روز تكله عله "لاوما لالظ إلى مقن ا 1 
التحيوطات الو توفت :فى حل تجلين الطيقه الكافنة حاتي الطدة اعلده 
وتتألف الطبقة 1 من مزيد من الأفراد المحافظين؛ ممن يفضلون التراجع عن الإنفاق 
على الرعاية الاجتماعية و«المشاكل المدنية»» ويريدون في المقابل دعم مكافحة 
الجريمة. أما دعم الجيش قوي ولكن ليس قوياً مثل قوة الدعم الموجود في الطبقة 1 
فى الحل خماسى الطبقة. لقد دعموا ماكين بنسبة تصل إلى 3ظ0) ولكن سناتك 
5 منهم أوباما. وتضم الطبقتان2 و3 ناخبين أكثر تقدمياً وأكثر وسطياً على التوالي؛ 
في حين تفضل الطبقة 2 بشكل متزايد. الإنفاق على البيئة» والمدن» والرعاية 
الالمامةرزسافن الجريمة كما يعد ثلاث أرباع هذه المجموعة من أنصار أوباما. 
أما الطبقة 3» فهي فاترة بشأن الزيادة في الإنفاق» وتريد الإنفاق على الجيش. ولكن 
هذه المجموعة التي تبدو أكثر وسطية في آرائها - هي في الواقع أكثر دعماً على ما 
يبدو لأوباما. 


نقدر عضوية الطبقة انطلاقاً من الدخلء والعمرء وتعليم الوالدين (أعوام). 
وقياس المحافظة السياسية. ويتم قياس كُلَ المتنبئات بشكل مستمر. ينشأ قياس 
المحافظة السياسية من الاستجابات لسؤال يطلب الناس من خلاله ذكر أيديولوجياتهم 
السياسية» التي يتم ترميزها بسلم يتراوح ما بين 0 (ليبرالي جداً) و5 (محافظ جداً). 
ويجب أن يقرا نتائج انحدار الطبقة الكامنة (الجدول رقم 4.13) بالطريقة نفسها التي 
تقرأ بها نتائج الانحدار اللوغاريثمي ذي الحدود المتعددة؛ أي إن انحدار الطبقة 
الكامنة من طبقة واحدة» مجموعة مرجعية» ويقدر العلاقة بين متغيرات المتنبئ 
والاحتمالات اللوغاريثئمية فى كَل طبقة من الطبقات الكامنة الأخرى بدل طبقة 1. 


ومن الأهمية الإشارة إلى أنه على الرغم من أن لدى أولئك الموجودين في 
الطبقة 2 ملفاً شخصياً أكثر تقدمياً من أصل كُلٌ المجموعات. فهم يشبهون إلى حدّ 
كبير الطبقة 1 (المحافظين) من حيث العمر» وتعليم الوالدين» والتوجه السياسي 
المبلغ عنه ذاتياً. إن الاختلاف الرئيس يتمثل في كون أولئك الموجودين في الطبقة 2 
يتقاضون أجراً أقل من أولئك الموجودين فى الطبقة 1. وفى المقابل» يختلف الأفراد 
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في الطبقة 3 اختلافاً كبيراً عن المحافظين في الطبقة 1 بطرق شتى - فهم أكثر شباباً» 
وإن لدى والديهم تعليماً محدوداء ويبدو أنهم أفضل حالاً في المتوسطء ويحددون 


بكونهم أقل محافظة. 
الجدول رقم 4.13: تقديرات المعلم المتنبئ لعضوية الطبقة في نموذج انحدار 
الطبقة الكامنة. 
طبقة 2 (مقابل 1) طبقة 3 (مقايل 1) 
معا م معا _/ 
العمر (0.002) 0.002 339. (0.008).002- 001).> 


المحافظة (0.020)0.001 151. «0.058)0.014- 001.> 
تعليم الوالدين ‏ (0.001)0.001 902. (0.017)0.036- 001.> 
الدخل (510005) (0.015)0.001- 001. (0.011)0.000 004. 
قار (0.003) 20.002 565.  0.001)0.000(_‏ 0.001> 
ومهم أيضاً الإشارة إلى أن هذه المجموعة, تدعم أوباما بمعدلات مرتفعة 
بخاصة. وهذا يدل - على ما يبدو - على أن أولئك الموجودين في الطبقة 3 يشبهون 
شيئاً يسمى ١حزب»‏ الديمقراطيين» كما يعد العديد منهم أفراد راقين. وفي المقابل» 
تشبه الطبقة 2 شيئأ مثل التقدميين ذوي الياقات الزرقاء. 
ويتطلب تأكيد هذه الأنماط تحليلاً أكثر كثافة مما يمكننا الانخراط فيه هنا. كان 
بوسعنا تناول الأسئلة الموقفية المختلفة بشكل عبثي, غير أن هذا التمرين يشير إلى 
كيفية استخدام انحدار التحليل الكامن عوض تجميع (01115]61128)) حضور البيانات 
المُدخلة الثنائية أو الفئوية في الغالب. 
نماذج مزيحة 
ترتبط طبقة تقنيات تدعى نماذج المزيج (5اء2100 عتنط::811) إلى حدّ ماء 
بتحليل الطبقة الكامنة» وانحدار الطبقة الكامنة كليهما. وقد تم تطوير نماذج المزيج 
تصورياً في بداية الأمرء في العشرية الأولى من القرن الثامن عشرء إلا أنها لم تخضع 
للتجريب والممارسة بشكل كبير إلى غاية ظهور الحوسبة الحديثة. ولدى نماذج 
المزيج تطبيقات ضخمة في تحديد هوية المتكلم» وفي علم الوراثة» وفي تحليل 
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الصورةء وجدت أيضاً تطبيقاً في العلوم الاجتماعية» خاصة منذ تطور التقنيات» 
لتطبيقها على نماذج المزيج منذ تطور التقنيات» لتطبيق هذا النوع من النماذج على 
مسارات النمو (انظر مثلاً لوب (3106آ)» وناجين (713818)» وسامبسون (53510508)» 
(1998). 


وخلافاً لتحليل الطبقة الكامنة أو تحليل التجميع يتم توجيه نماذج مزيج محددة 
نحو متغير نتيجة مهم جذا. وعموماء توزع هذه النتيجة على نحو مستمر» سواء 
باعتبارها عادية» أو لوغاريثم عادي (لهمدهلا-عم.1) أو بواسون (مهووزه0)» أو 
غاما (687318) أو ثنائية الحدود السلبية. والمفترض أن التوزيع المستمر الموجود 
ومثال كلاسيكي على ذلكء. هو الارتفاع بين عينة مكونة من رجال ونساءء حيث 
الجنوسة غير مرصودة. وإذا ما نظرنا إلى رسم بياني (1115]085220) ماء فإن التوزيع 
سيكون إما عاديا أو ثنائى الحدين بعض الشىء؛ ولكن إذا أمكن لنا تحديد الجنسين 
بشكل منفصلء فسيكون بإمكاننا رؤية أن ما كنا نبحث عنه. هو - في واقع الأمر - 
توزيعان عاديان متداخلان» ومع ذلك» يتمثل مفتاح نموذج المزيج ف عدم قدرتنا 
على رؤية - أو على أي حالء عدم قياس - التغاير الأساسي قيد البحث. ولكن لدينا 
ما يبرر - عادة نظرياً - اعتقادنا في أن العلاقة بين متغيرات المتنبئ والنتيجة تختلف 
عبر المجموعات الكامنة داخل ساكنة ماء إننا نتوقع رؤية تنوع المعاملات في نموذج 
انحدارناء بشكل كبير بين الطبقات المختلفة. ويمكن لنماذج المزيج أيضاً نمذجة 
عضوية الطبقة» لتجعلها شبيهة جدا بانحدار الطبقة الكامنة. 


وتوجد روتينات المزيج بالنسبة إلى العديد من النظم الإحصائية. وإن لدى 
نموذج الحزمة الإحصائية للعلوم الاجتماعية (57255) عقدة نماذج مزيجة خطية 
عامة. وقد كُتبّت حزمات متنوعة في . لأجل نماذج المزيج. بما في ذلك 
الفليكسمكس (1*16721212): ولوغاريثمات نمذجة #المريع الغعوسي («قطمع6). ويشير 
«الغولد» الكامن إلى حزمة برمجيات متاحة تجارياء ومخصصة تحديداً بالنسبة 
لنماذج متغير كامن» بما فى ذلك نماذج المزيج. ولدى «الستاتا» (951362) برنامج 
برنامج لوغاريثشمات نمذجة المزيج الغوسي ذي المستخدم المولن: 
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ونبين نماذج المزيج مستخدمين برنامج نماذج المزيج المحدود في «الستاتا» 
(2012مء8). وبما أن البرنامج برنامج مستخدم مولّد؛ أي إنه لا يشكل داخل الهندسة 
الأساسية ل «الستاتا»» فإنه يحتاج إلى تحديد موقعه على شبكة الإنترنت أولاً. 


111101 


وسيأخذك هذا إلى شاشة بحث عن برنامج قابل لتحديد موقعه بسهولة» ولهذا 
فما عليك إلا اتباع - ببساطة - التعاليم لتنزيله (1200101030). وتأخذ صيغة البرنامج 
الشكل الاساسي: 
(1216861) 0261215م12مه ,[غطعاء1] [صل] [11] 12007325 نامعل لط 


.(عم67) ع7 (12ع2200) 7 111طدط0]م (2ه0 باط 1تنك1ل) 111101 


وفي هذه الصياغة» نخبر «الستاتا» بتقدير نموذج مزيج محدود. وحصر المتغير 
التابع في مجموعة من المتنبئات. ونحدد عدد المجموعات الكامنة التي نرى أنها 
مُمَثْلة 8 البيانات (المكوّنات)» وخيار ميكستشر أوف 0 ع81:5) يسمح لنا 
بتحديد كيفية توزيع المتغير التابع (عاديء أو لوغاريثم عادي, أو «بواسون». أو ثنائية 
الحدود السلبية» أو «أو غاما»). كما نستطيع أيضاً تحديد أشكال خطأ المعيار (708)؛ 
مثلآه قوي» «بوتسراب». أو «الجاك نايف» (130110116). كما يسمح خيار الاحتمالية 
للمستخدم بتحديد المتنبئات لنمذجة احتمالية عضوية الطبقة. 


ونحلل بياناتنا المستخلصة مرة أخرى» من المسح الاجتماعي العام؛ للعام 
2» مستخدمين كمتغيرنا التابع» مقياس مركب من التدين (/9إ111810511).: المكون 
من أجوبة عن أسئلة» يستفسر الأفراد فيها عن مدى أهمية ديانتهم إليهم وعن عدد 
المرات التي يصلون فيهاء وعن عدد المرات التي يترددون فيها على الكنيسة. ثم 
نمزج هذه المواد في مقياس تصنيف محصل عليه؛ لديه كرونباخ (اعةصممط0) 
(ألفا) 0 ل 0.81» مما يوحي - حقيقه - بارتباط المواد بشكل وثيق. ونقوم بنمذجة 
التدين» مستخدمين الدخلء» والجنوسة؛ والعمرء وتعليم الوالدين» والعرق (الذي 
يرمز لها المسح الاجتماعي العام بأبييضء أو أسود, أو آخر؛ ونتخذ الأبيض» مجموعة 
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مر جعية). 
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الحدول رقم 13-.: تقديرات المعلم بالنسبة إلى المتغير التابع (التدين). باستخدام 
المربعات الصغرى العادية ونموذج المزيج (ثلاث مجحموعات كامنة). 


المربعات الصغرى العادية نموذج المزيج المحدود 
فريق 1 فريق 2 فريق 3 
معامل خطأ معامل خطأ 
معامل خطأ المعيار م معامل خطأ المعيار م مم م 
المعيا المعيار 
(2.012 (005.) 
الدحل (0.001).011 027  -0.012).008(‏ 0.146 028 0292 
3 0205 
أنثى (037.) 0282 00> (0.035).022 0.114 «0.263).042 0.001> ((0.054).021 0.011 
(2.0006) (2.0013 (20007 
عمر 0210.001 01> 02,44 00> 007 
000007 020 )0000 
(2.005 (003.) 
تعليم الوالدين ‏ (0.015).005- 02023 (003.)  -0.005‏ 0.115 0255 0024 
0-- 5 
أسود (مقابل (041.) 
«054.) 0.471 01> «1.593).052- 0.001> «0.538).064 0.001> 01> 
أييض) 2.14 
آخر (مقابل (035.) 
(065.) 0.180 0206 (0.060).048 0.207 (0.263).0637 0.001> 018 
أبيض) 02026 
(2.154 (2072 
قار (0.547).143- 01> (1.184).104 0.001> 0020 01> 
0-59 2- 
ع 0 ٠‏ 
وياخذ النموذج المحدد. الصيغة التالية: 


5 1.1401 لهم انكام م لاقططاع؟ عمتص]ا 51م1ع1أع؟ نص : 1 


(1221ع1 عنتما طاننى )تنآلمطط) ب1لاطدطه]م (لمستمم )طاحم (3) 


نحن بصدد تحديد نموذج تكون فيه النتيجة مزيجاً من ثلاث توزيعات عادية. 
وكما هو الحال بالنسبة إلى تحليل الطبقة الكامنة» إن عدد المكوّنات تختار - إجمالاً 
- إما بسبب معرفة أو نظرية قبّلية» أو لاختيار عدد المكونات التي لها أفضل تناسبية 
إحصائية. ونحن نختار الاستراتيجية الأخيرة. 
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وننمذج أيضاً عضوية المجموعة» مستخدمينء التعليم» والعمرء والدخلء 
والجنوسة. ومن أجل المقارنة» نبين أيضا نتائج نموذج انحدار المربعات الصغرى 
العادية» الذي سيبين متوسط النتائج بالنسبة إلى الطبقات الكامنة الثلاث 
(الجدول رقم 5.13). 


إن نموذج انحدار المربعات الصغرى العادية يخبرنا بأن التدين الأكبر لا علاقة له 
بالدخلء لكن هناك نسبة أعلى (فى المتوسط) بين النساء مقارنة بالرجال» وأعلى بين 
الدوة واقو ل عرق احزمن يضرا وله طلا تنباي ين علي لالد ون والتدي وها 
يوحى بأن الوالدين المتعلمين بشكل أفضلء يميلون إلى تربية الأولاد تربية دينية أقل. 
وعديزي لافتجات تقذلينا لمداذتة يت التعلتة الحنيم الصلة بالتدين» سواء خضع 
تعلم الوالدين للرقابة أم لم يخضع. وأخيراء ثمة علاقة إيجابية بين التدين والعمر. 

ويصنف نموذج المزيج. الساكنة إلى ثلاث مجموعات أساسية مختلفة. ويبقى 
الذقل غير مرتبط بالعدين فى كل المجموعات الكامتة. أما العمرء فيعد متتبرم تدين 
ساد يو أنه هيوه خسان انحط والنسة لل الميجموعة :ا ون لغيه انراد 
مرتبط بقلة التدين» ولكن هذه النتائج مهمة فقط في  >.10‏ في مجموعتي 2 و 3. 


وتعد النساء في مجموعتي 2 و3 أكثر تديناً في المتوسطء إلا أن الفرق لم يبلغ 
درجة الأهمية فى المجموعة 1. أما الفوارق العرفية فى التدين» فهى لافتة للنظر 
بشكل كبير إة يلاحظ في المجموعة 1ء أن الود أقل نديناً يشكل كير من البيض» 
وأن لا أهمية للفرق بين البيض والآخرين» ولكن فى المجموعتين 2 و3» يعد السود 
أن تقينا فى المتوسيط عوهذا القرق كين تخامة فى المجمرعة 3 ما ارادام 
مجموعات عرقية «أخرى»» فهم شيئاً ما أكثر تديناً من البيض فقط في المجموعة 2. 

وإن الجدول رقم 6.13» يوضح نتائج نماذجنا الاحتمالية لعضوية الطبقة. ومرة 
أخرى. لابد من أن يفسر هذاء على النحو نفسه الذي يفسر به انحدار لوجيستى متعدد 
اللمدوة ريدي أن تاك سعوال قد انلف الجد قن المصير ين عقن ماوع 
كاك الهو اك ندا رهد و العلافة أموف السب الى المحدوعة د زه ا معيو 
0 
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(5.1) 3 1355 (5.1) 2 355إن) 


1 (:51) .007 م إثاة) .00 


02. (006.) 018. 01> [037).007. 26 
02. (188.) 352. 056 (216.) 412. ع1 
0)01). (111).033- 2 051. (038.) 073.- اوزقافات ل 
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ويرتبط التعليم سلبياً بالعضوية في أي من المجموعتين المرتبطتين بالمجموعة 
1 إلا أن هذه العلاقة مهمة فقط فى 50.0> م بالنسبة للمجموعة 3. وأخيراًء يبدو أن 
هناك علاقة إيجابية بين كون ارد مؤنثاء واحتمال تواجده فى المجموعتين 2 و3: 
ولكن لهذا دلالة في 10.> م. ١‏ 

خلاصة 

لقد فحصنا في هذا القسم ثلاث تقنيات مَعلمية (7373126]110) لدراسة حضور 
المجموعات الكامنة في البيانات. وهذه الطرق - تحليل الطبقة الكامنة» وانحدار 
الطبقة الكامنة» ونمذجة المزيج - يمكن اعتبارها بدائل معلمية للتجميع. ويتوقف 
اختيار التقنية في القسم الأكبر على نوع بيانات المُدخل المتوافرة لدينا (مستمر أو 
فئوية)» وعلى مدى رغبتنا في تقدير عضوية المجموعة في صلتها بمتغير نتيجة معينة. 
وبينا إمكانية استخدام تحليل الطبقة الكامنة لفحص بيانات الاستجابة السياسية ضمن 
مجموعات تشترك في نمط التفكير» وإمكانية فحص نماذج المزيج للتغاير الأساسي 
في التدين. ومع ذلكء فإننا لا ننصح بالتأويل الذي يفيد بوجود هذه النماذج لطبقات 
أو مجموعات كامنة «حقيقية»؛ فهى بدلا من ذلك» طرقء» من خلالها يمكننا نمذجة 
النمط في البيانات إحصائياًء وهذا يمكن أن يكون مثمراً بالنسبة إلى تطوير النظرية 
والبتوال: 
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النصل الرابع عشر 
قواعد الارتباط 


يعد التنقيب في قواعد الارتباط» إحدى أهم تقنيات التنقيب في البيانات 
المستخدمة بشكل واسع. واستخدمت في شكلها الكلاسيكي - وكما طورها في 
البداية» كل من أغراوال (487881)» وإيمبيلينسكي (1:16115511)» وسوامي 
(نحطة:5) (1993) - فى فحص بيانات سلة السوق فى الخلفيات التجارية. وقد 
صمم هذا التطبيق العيلى ليستفيد منه تجار التقسيط (وه انماع 2). المهتمين بأنماط 
ابتياع التي ينخرط فيها الزبائن. ولدى المحلات التجارية مجموعة معينة من المواد 
المعروضة للبيع في وقت محدد. بحيث يقتني الزبائن مجموعة من هذه المواد عندما 
يأتون إلى المتجر. وقد يرغب بائع التقسيط في معرفة مزيد من المشتريات التي يميل 
الزبائن إليها لدى شرائهم الحليبء أو البيضء أو بسكويت الكلب. ويمكن أن يساعد 
فهم هذه الأنماطء باعة التقسيط على بيع مزيد من البضائع» من خلال اقتراح - مثلاً 
- أن المواد التي تباع بكثرة» مخزنة بالقرب من بعضها بعضا. ويتمثل المشكل في 
كون أن محلات السوبر ماركت يمكن أن تتعامل مع عدد كبير من المعاملات 
التجارية» وتنقل منتوجات مختلفة كثيرة» بحيث يمكن بيع عدد هائل - إلى حد ما - 
من المواد في كَل معاملة تجارية. 


ومن ثم» أضحى واضحاً أن هذا مشكلة بيانات ضخمة (1627[ 8:0 2818 1318 )؛ 


بما أنه مشكلة يُمنع مجاله العام على المحللين من البشر. ومهما يكن. إذا باع محل 
تجاري ما 20 مادة منفصلة» ونحن مهتمين بالترابطات القائمة بين مادتين فقطء فإن 
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هناك 190 مزيجاً ممكناً. وإذا ما بحثنا فى كل الترابطات الممكنة (ليس فى اتّجاهين 
فحسب) بين هذه المواد» فسيكون غده الترايطات الممكنة. 1.048.575 5 [ -20. 
وبطبيعة الحال؛ لن تحدث معظم هذه المجموعة الممزوجة المحتملة من المبيعات. 
ومع ذلكء فإنه بين التجميعات نفسها التي تحدث بالفعل» توسم مشكلة البيانات 
بالحدة الشديدة للغاية إلى درجة استدعاء الالية. 


ومن أجل مناقشة الترابطات الأكثر أهمية» والترابطات التى يمكن تجاهلهاء 
نحتاج أولاً إلى تقديم مصطلحين: ْ 

الأول يتعلق بالدعم (011م0نا5)؛ فدعم مزيج مادة معينة يعادل عدد كل 
المعاملات التجارية التي تضم هذا المزيج» مقسوماً على مجموع عدد كُل التعاملات 
التجارية. إذنء إذا كان الدعم بالنسبة إلى مجموع المواد (حليب» بسكويت) هو 10/ 
من أصل كل المعاملات التجارية (معاملات قد تضم أي عدد من مواد أخرى). 


وأما القياس الموالى» فهى الثقة (©00211062©6). وتشير ثقة قاعدة ما إلى احتمال 
رؤية مادة (1]670) ماء مع الأخذ بعين الاعتبار رؤيتنا للمادة الاجر ومع ذلك» 
يقتضى هذا القياس منا اعتبار مجموعة فرعية من المواد فى مجموعة موادناء لاحقة 
(65ناو0005)))» التي تعد نظيرة المتغير التابع» في حين نعتبر الآخرء المتبقي السابق 
(أصعلععع مم ) . 

وإن ثقة 75/ في العلاقة (حليب -> بسكويت»» تعني أن في الوقت الذي يشتر 
فيه الزبون الحليب» » فهو ب بككرى اللسكويت يفا ولااحظ - مع ذلك د أن قل 
السهم يمكن أن يقدم ثقة مختلفة جداً؛ أي إن احتمال حصولنا على الحليب على 
إعتبار أن لدينا الشكريك يعاو ل على الا ربعم اتجمال عفراو انا علي السكوييت على 
اعتبار أن لدينا الحليب . ومن المهم أيضاً الإشارة إلى إمكانية أن يكون كل من اللواحق 
والسوابق مجموعات فرعية من مادة متعددة. ولهذاء من الممكن أن تكون لدينا قاعدة 
من قبيل (نقائق» كفك + كاتشب» خختردل) - احتمال حوزتنا على كل من الككاتشب 
والخردل على اعتبار أن لدينا النقانق والكعك. 


ويحيلنا هذا على شيء مهم لإنتاج قواعد الترابط المفيدة بالنسبة إلى البحث في 
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العلوم الاجتماعية. ومن الممكن تعيين مادة ما بصفتها هدفاً 0عع:12)؛ أي تحديدها 
كلاحق. وستجد خوارزمية التعدين (1012118)» قواعد تشير إلى احتمال ذاك اللاحق» 
مع الأخذ بعين الاعتبار ظهور مواد سابقة. 


وفى ضوء وجود عدد هائل من التجميعات (00100123]10825)) فى مجموعة 
العانافكة بحن تتفل فاعدة ممدر ها خدئزة بالل حظة الطلدقا من قواعل غير ذات 
صلة. ويتم القيام بهذا - نوعا ما - بشكل عشوائي من قبل الباحث الذي يدير قاعدة 
خوارزمية «التعدين». ويختار الباحثون الحدّ الأدنى من قيم الدعم, أو الثقة» أو هما 
معأ واستبعاد تجميعات بصفتها غير مهمة إذا ما فشلت في الاستجابة إلى الحدّ 
الأدنى من المعايير. وهناك طريقة أخرى للحد من عدد القواعدء المتمثلة في تحديد 
الحدّ الأقصى (أو الأدنى) لحجم مجموعات مادة اللاحق والسابق. وأخيراء نشير 
إلى أن الفعل الحقيقي لتعيين مادة ما باعتبارها لاحقة» لها تأثير تقليص مجموعة 
القواعد العائدة. 

من القضايا التي تثار في بيانات المعاملات التجارية» هو أن بعض المواد تباع في 
كثير من الأحيان (الحليب)؛ في حين تباع المواد الأخرى على نحو نادر (ملاعق). 
وأي حد أدنى لقواعد الدعم والثقة» سيضم - بالضرورة - قواعد كثيرة تحتوي على 
الحليب» وقواعد قليلة جدا تحتوي على الملاعق. ويمكن للمرء اعتبار ذلك نظيرا 
- في قواعد الترابط - لمشكل ذي نتائج نادرة. ومن الحلول المطروحة لهذه 
المشكلة» هو السماح للحد الأدنى من الدعم من أن يتنوع عبر المواد - أي استلزام 
حدّ أقصى من الدعم بالنسبة إلى مجموعة مواد تحتوي على الحليبء مثلآء ودعم 
منخفض بالنسبة إلى تلك المجموعة من المواد التي تحتوي على الملاعق. 

الآنء أمضينا معظم الوقت في الحديث عن محلات السوبر ماركتء ودكاكين 
البقالة» والحليب» والبسكويت - وقد يكون هذا لا محالة مفيدا جدا بالنسبة إلى 
أصحاب السوبر ماركت. ولكن بماذا يفيد هذا علماء الاجتماع وباحثين آخرين؟ 
ولماذا يستوجب على الباحثين الاهتمام بقواعد الارتباط؟ وكيف يمكن استخدام 
التنقيب في قاعدة الارتباط لدعم بحثنا؟ 
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إننا نؤمن بأن بإمكانية أن تكون قواعد الارتباط أدوات استكشافية قوية عندما 
يكون لدينا بيانات ذات متغيرات مستقلة (سمات). ويمكن للمرء استخدام التنقيب 
في قاعدة الارتباط في شكلها غير الخاضع للرقابة (أي دون متغير الهدف) للحصول 
على فكرة بشأن كيفية اشتغال الأشياء بعضها مع بعضء غير أننا نعتقد في أنه من 
المفيد أكثر بالنسبة إلى العديد من الباحثين» الحصول على متغير نتيجة ذي دلالة. 
وبمجرد تحديد هذاء يستطيع المرء استخدام التنقيب في قاعدة الترابط للبحث عبر 
متغيرات مستقلة عديدة لاستكشاف المتغيرات التي تميل إلى الترابط مع النتيجة 
(1603نا0). كما يمكن القيام بذلك بشكل أسرع وأكثر نجاعة من إنتاج مصفوفة 
الارتباط 1480110 001113]105). ولكن من الأهمية بمكان, الإشارة إلى إمكانية أن 
يجد التنقيب فى قاعدة الترابط» تجميعات الشروط 01 1055)قت1طمته0) 
(كطه110لمه0) انمز ابعل بالهدف. ويمكن لهذه التجميعات الإشارة إلى وجود 
تأثيرات مهمة ذات نوع تفاعلي(2008 ,ماع 1). 

التنقيب في قاعدة الترابط في مُتَمُذْجٍ الحزمة الإحصائية للعلوم الاجتماعية 

لقد كان التنقيب فى قاعدة الترابط موجوداً منذ أكثر من 20 عاماً - عند هذه 
الشطة ع ودغمل جشكن كتيراي بناقات معارة «وتتيدة لذللك) طهر لاه مين 
التطبيقات» القادرة على القيام به غير أنه ليس مدمجاً في البرمجيات الأكثر استعمالاً 
بشكل مألوف من قبل الباحثين (255, 51218, 545). ومع ذلك» هناك حزمة كبيرة 
ومعقدة بالنسبة إلى +1 تدعى اللا قواعد (8111165)» كما أن منمذج الحزمة الإحصائية 
للعلوم الاجتماعية قادرة أيضا على إنجاز التنقيب في قاعدة الترابط. ونبين استخدام 
قواعد الترابط في منمذج الحزمة الإحصائية للعلوم الاجتماعية أدناه باستخدام 
البيانات المستخلصة من مسح المجتمع الأميركي» والتركيز على الأفراد الذين 
يفتقرون إلى تغطية التأمين الصحي. 

من المهم إعداد بياناتك قبل التنقيب في القاعدة» ويفترض التنقيب في القاعدة 
- عادة - إن بياناتك موجودة فى شكل المعاملة التجارية» حيث يمثل كَل سطر مزيجاً 
من مادة زبون ما أو بشكل كر قل بيجا لمناذة معاملة تجارية. وإن المواد المتعددة 
التي تم شراؤها كلهاء لا تظهر في السطر نفسه بل في السطور المتتابعة. وستكون 
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مجموعة البيانات ()109]856) طويلة وضيقة عدا مع وجود عمود (00111172)) واحد» 
يدل على هوية المعاملة التجارية أو المشتريات» وعمود آخر يحدد منتوجا فرديا. 
ومع ذلك. من الممكن إدخال بيانات في شكل جدول (1052 131ناط18)» وتمثل 
السطون غنا معاملات تجارية أ مسعريات: تحيف يشير كا .عمود إلى مادة يمكد 
شراؤهاء ويضم عرض جدولي للبيانات (1028 :1801013))» إذن. متغيرات وهمية. 
تعادل 1 إذا تم شراء المادة في معاملة تجارية معيئة» وتعادل 0 إذا حدث العكس. 


أما بالنسبة إلى علماء الاجتماع» فيعني حاجة التنقيب في قاعدة الترابط إلى 
متغيرات وهمية» أو على الأقل متغيرات فئوية» وعدم قدرتها على معالجة 
المتغيرات المستمرة بالنسبة إلى السوابق أو اللواحق. ولهذاء يجب أن تتحول 
المتغيرات المستمرة إلى متغيرات فئوية بواسطة طريقة من طرق التفريد/ التمبيز 
(215016122100) قبل تشغيل روتين قاعدة الترابط. علاوة على ذلكء لا يقوم 
التنقيب في قاعدة الترابط على احروجية و السيرات الفئوية المتعددة ذات 
الفئات العديدة» وسيكون - أصلاً - لدى هذه الفئات» معد لات دعم منخفضة تقريباً. 
ولهذاء على المرء اعتبار تجميع هذه الفئات ضمن فئات أوسع. ولمعرفة كيفية القيام 
بهذاء انظر إلى أقسامنا السابقة التي تناولت المتغيرات المستمرة المميزة» وتجميع 
المتغيرات الفئوية المتعددة. 


وعموماًء نفضل الحصول على بيانات يظهر فيها فقط المتغيرات الوهمية» التي 
يمكن - مع ذلك - إنتاجها بطرق مهمة ومبتكرة. وتذكرء أنك لست بصدد بناء نموذج 
انحدارء ولهذاء لا يوجد داع للتيقن من أن الفئات حصرية وشاملة بشكل متبادل» 
لعدم حاجتك إلى تأويل معاملات التأثير. ويجب اعتبار المتغيرات الوهمية متغيرات 
مؤشر (7/81135016 1138) من أجل شروط مهمة. ولهذاء أمكن للمرء إدخال مؤشر ما 
من أجل مجموعة من الشروط - كون الفرد يتجاوز سنّ 30» ومسجل بصفته طالبا 
جامعياً في الكلية» مثلاً - من دون أن يقلق حيال طبيعة المجموعة المرجعية بالنسبة 
إلى هذا الموقير 

أما في روتين ما من روتينات التنقيب في قاعدة الترابط» فهذا لا يطرح إشكالا 
إذ يمكن للمرء أيضا إدخال متغيرات وهمية بالنسبة إلى تجميعات من الفئات 
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المتداخلة؛ فإن كان لدينا خمس مجموعات إثنية فى بياناتهاء مثلآ» أمكن للمرء إدخال 
كرالك وعية الحة إلى كن مجموعة علق كوه“( زدكطالها ورمتهاء ذون قشنا 
المرجعية). كما يمكن إدخال كَل هذه التجميعات فى وقت واحد فى مجموعة بيانات 
التتقيب في قاعدة الترابط» وسيقوم الروتين - ببساطة - بخلط كُلّ متغيرات المؤشر 
المحددة» بحثا عما يمكن اعتباره قواعد تنبؤية لمتغيرنا الهدف (المستمر). 


إذن» قمنا بإنتاج مجموعة بيانات انطلاقاً من مسح المجتمع الأميركي» حيث 
ميزنا فيه العمر ودخل العائلة ضمن مجموعة فئات, وأنتجنا عددا من المؤشرات 
(51885) من أجل مجموعات من الحالات المهمة (مثل كون الفرد بالغ في سنّ 
العمل» وليس ضمن القوى العاملة). وأما شرطنا السابق» فهو «الافتقار إلى» حاللات 
التغطية الصحية (7100681]5125): وهو مؤشر يدل على الافتقار إلى أي تغطية صحية. 
نحن بصدد البحث عن صفات ومجموعة من الصفات المركبة» التي تعد سوابق 
(متنبئات) متكررة للافتقار إلى تأمين صحي. والآنء من الأهمية التأكيد على وجود 
قواعد تتنبأ بعدم الحصول على تأمين» عوض صفات الشروط التي - في الغالب - ما 
ترافق كون المرء غير مؤمنء» وهذا فرق مهم لا محالة. وبتعابير رياضية» ستخبرنا 
قياسات الثقة التي سنجدها - مثلاً - عن احتمال افتقار المرء إلى التأمين الصحيء 
على اعتبار أنه فقير» وينحدر من أقلية عرقية» وليس عن احتمال كون المرء فقيراً 
وينحدر من أقلية عرقية» باعتبار عدم امتلاك أي أحوتانا فخي 

ومن المهم الإشارة إلى الاحتمال الأساسي لمتغيرك الهدف أو النتيجة» عند 
تحديدنا للحدٌ الأدنى من الدعم. وإذا حدث متغير هدفك بشكل نادر في بياناتك» 
فعلينا تحديد قاعدة الحدّ الأدنى من الدعم على نحو منخفض جداء في الواقع. 
وستكون دوماً في حاجة إلى تحديد الحدّ الأدنى من الدعم على نحو أقل انخفاضاً 
من التكرار الأساسي لقيمة إيجابية في نتيجتك. وإلا لن تجد أي قواعد تذكر. كما 
يمكن تعديد قامات الج الآدى من اللقه أقار ف تقدر عن دحب فا تاهما 
كاحتمال شر طي. 

إن لقطة الشاشة أعلاه تشير إلى كيفية القيام بهذا التحليل. وإن العقدة الموجودة 
في أقصى اليسارء هي عقدة مصدرنا (5011506)» التي قمنا فيها بانتقاء بياناتنا. وبعدهاء 
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توجد عقدة «اشتق») (10611976) (لوحة المجال) (ع]2216 1'116101). حيث قمنا بتحويل 
نعف و تاكاه وأخيراء يتم انتقاء عقدة الفرضية!!) (©2100 8011011) من لوحة 
النمذجة (2216116 38 ذاء8100) (الشكل رقم 1.14). وإن لدى المُتَمُذْج ثلاث 
روتينات قاعدة ترابط منفصلة. ونختار الفرضية (151011م8) لأنها تسمح للباحث 
بتحديد متغير مؤشرها (1138). (ويولّد روتين الكارما (0308) كل القواعد الممكنة 
من دون إمكانية تحديد مؤشر ماء ويضع التسلسل (2560116266» النظام حيث تكون 
المواد المدرجة فيه مهمة). 

ثم نضع المَعْلمات» وفي هذه الحالة» ينصح بالحفاظ على الحدّ الأدنى للدعم 
السابق منخفضاً نسبيا (في 0.5/) لأن نتيجتنا تظهر فقط في حدود 14/ من الوقت. 
ولكن تُبقي على الحدّ الأدنى من الثقة القاعدة عالٍ إلى حدّ ما. وفي إكسبيرت تاب 
(18 +1ءعم«8). يمكننا إدخال إعدادات بديلة لفرز قواعدناء كما يمكئنا اختيار 
الإقصاء على أساس الاختلاف المطلق بين الثقة التي تمنح القاعدة والثقة القبْلية 
(مثلاً» احتمال رصد اللاحق (0560161©) بغض النظر عن السابق (4216060620). 
ومن جهة أخرىء نستطيع القيام بعملية الاختيار استناداً إلى معدل هذين القياسين من 
قياسات الثقة. وفي المُنمذج (380006165)» يُدعى هذان القياسان «اختلاف الثقة» 
(ععطع ]1011 عه٠مءع05110)):‏ ومعدل الثقة (163110 ععم1106م00)» على التوالي. 
ويعد هذان الإعدادان مناسبين بخاصة عندما تكون نتيجتنا نادرة نسبياء كما هو الحال 
في هذه الحالة. وهناك طرق ممكنة أيضاً؛ «فاختلاف المعلومة» 12101026100) 
(©»مع11115 يخبرنا بمدى تقديم ظهور السوابق لظهور اللاحق. ويأخذ بعين 
الاعتبار الدعم بحيث يتم تفضيل مزيدا من القواعد التي تحدث مرارا. ومع ذلك» 
فاختلاف المعلومة أقل فائدة من نتائج نادرة مثل نتائجنا. كما يقوم مربع كاي المعياري 
(عنقناو5- تن 0ء2ذلقدترهل8) أيضا على الدعم. 
(1) تشير كلمة فرضية (851051) إلى الخوارزمية الخاصة لتوليد قواعد الترابط» المستخدمة من قبل مُنَمْدْجَ 
الحزمة الإحصائية للعلوم الاجتماعية. وتعد خوارزمية الترابط الأولى التي تم اقتراحها من قبل أغراوال 
(1هموة) وزملاء في المقال الأول حول قاعدة الترابط المذكورة أعلاه. ومنذ ذلك الحين» تم تطوير 


العديد من الخوارزميات الأخرى. وجدير بالاهتمام» أن جميعها يقود إلى المجموعة نفسها من قواعد 
الترابط لدى تطبيقها على البيانات نفسهاء على الرغم من استعمالها منطقاً متفاوت بعض الشيء. (المراجع) 
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الشكل رقم 1.14: تدفق قاعدة الترابط والعقدة الفرضية (4011013) في مُتَمْذِج 
الحزمة الإحصائية للعلوم الاجتماعية. 

إن بياناتنا والإعدادات التي اخترناهاء ولدت 16 قاعدة ترابط منفصلة؛ المشار 
إليها في الجدول رقم 1.14. ولدى قراءتنا لهذه القائمة وتأويلهاء يصير من المهم 
تذكر الأمر الذي تستطيع قواعد الترابط القيام به والأمر الذي تعجز عنه. فالطريقة 
التي تقرأ بها قاعد رقم 1-مثلاً- هوأن (80/ من غير المواطنين (7[102-00162605)) 
التي تتراوح أعمارهم ما بين 39-30: يفتقرون أيضاً إلى التأمين الصحي». وتعد 
قواعد الترابط لا معلمية؛ ولا تشمل أي شيء من قبيل الضبط الإحصائي. إن قواعد 
الترابط - كما يقترح ذلك اسمهاء لا تسمح لنا باستنتاج السببية - لا نعرف العوامل 
السابقة» هذا إذا كانت هناك عوامل أصلاً - في القاعدة رقم 1» التي تقود الناس إلى 
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عدم حصولهم على التأمين. كما لا تطلعنا على مجموعات المقارنة (مثل المواطنين 
الذين تتراوح أعمارهم ما بين 49-40» ويحسبون على البيضء ولديهم شهادات 
جامعية). 


الجدول رقم 14 .1: قواعد الترابط المولّدة بواسطة الخوارزمية الفرضية ضية لمَتَمذْج 
الحزمة الإحصائية للعلوم الاجتماعية. 


00 السابق الدعم / الثقة 7 الرفع 


غير مواطن + العمر بين 30 39+ لاتتني + 06 800 587 
يم < تعليم ثانوي 
وذ حال حوب المطةة الوسسلى | تبون ٠‏ ليود د 00 227 
مواطن «الانني + بعلت '< تعليم تانوي 
1 1 الام 37 او بود 50 
نوي 
بم بطالة + العمر بين 29-19 +لم يسبق 4 و60 7692 564 
الزواج أبداً + ذكر + مواطن عند الولادة 
ود لاطي ١‏ العمل ين 13 م 0.5١‏ 76.47 5.61 
مم عاطل +العمربين29-19+لميسبقله إبم 7606 558 
الزواج أبداً + ذكر 
د “عيبو مواطن الاتيتي تعلو لعلوم الوق ريزوو ويا 
+ لم يسبق له الزواج أبداً + ذكر 
8 سن عام أوويع . وروز ووه 
در 
و العمربين 29-19 + تعليم <تعليم ثاتوي +* وم ه73.0 5.26 
لم يسبق له الزواج أبداً + ذكر 


م العمر بين 19 0 حتعليم انوي 5 ورين اوت 53 


11 0000007 -29 +ذكر + مواطن و07 27260 533 


عند الولادة 
12 عاطل + العمر بين 29-19 + ذكر 0.82 71.95 5.28 
0 ل ا لل لط 4 71.62 5.25 
لوم 
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524+ <0 كمال جوت المنطقة الوسطق «اعيو. .6ق 10 ,و‎ ٠ 
مواطن + تعليم < تعليم ثانوي‎ 
5.22 7115 52 + لا يوجد في القوة العاملة + غير مواطن‎ 0 
لابى تعليع < تعليم ثانوي‎ 
+ العمر بين 19 -29 + تعليم < تعليم ثانوي‎ 
5.17 70.49 0.61 لم يسبق له الزواج أبداً + ذكر + مواطن عند‎ 
ْ 


ده 

ولكن قواعد الترابط مفيدة جداً في إخبارنا بمن يفتقر إلى تأمين صحي. علاوة 
غان ذلك» فهى وم ذلك علق نعو متحدة التغيراث شر للامتمام» وبسع نا 
المُدخل بالقيام ببعض المقارنات المحلية. دعنا نقارن قاعدتي 1 و3؛ فالفرق الوحيد 
هنا يتمثل في كون قاعدة رقم 1 أكثر دقة إلى حدّ ماء بما أنها تضم «واللاتينيين» 20ة) 
(13]120. أما المؤشرات الأخرىء فهي متطابقة» ولو أن ثقة القاعدة بالنسبة إلى قاعدة 
رقم 1 أعلى من قاعدة رقم 3. ويبدو أن من بين أولئك الذين تتراوح أعمارهم ما بين 
39-0. وغير مواطنين» ولديهم شهادة تعليمية أقل من الشهادة الثانوية» يلاحظ أن 
اللاتينيين أقل إلى حدٌّ ماء من المتوسط للحصول على تأمين صحى. ولمعرفة ما إن 
كان هذا الفرق الأخير «له دلالة»؛ على المرء إنجاز اختبار اخفان رسمي منفصل. 
وإن قيمة القواعد الترابطية» في هذه الحالة» هو أنه يمكن أن نقترح علينا نوع 
الاختبارات الرسمية - من بين مجموعات فرعية - التي قد تكون مهمة. 

ويضم الجدول قياسات إحصائية قليلة. ويوجد في العمود الثالث الدعم 
(01م5118). وكل هذه المجموعات الفرعية تضاهي قسما صغيرا من مجموع 
السكان. أي أقل من 1/ من كُلّ الحالات. إن الافتقار إلى التأمين الصحى هو «حدث 
نادر» (ولو أنه ليس نادراً كما يجب).» وإن انََحَاذْ مجموعة «الافتقار إلى تأمين صحيا)ء 
وعدد من المجموعات الأخرى صغير جداً في الواقع» بطبيعة الحال. أما العمود 
الموالي فيمثل الثقة» التي هي الاحتمالية الشرطية لعدم منح تأمين ماء مع الأخذ بعين 
الاعتبار الشروط السابقة (002011055 514ع0ع1160ى). وأخيراء لدينا الرفع (110آ). 
الذي يشير إلى تحسين تنبؤ النتيجة التي نحصل عليها من خلال معرفة السوابق - أي 
الاحتمال البُعدي (805161101) مقسوم على «الاحتمال القبلي». وفي الإنجليزية» تعد 
هذه - ببساطة - احتمال عدم الحصول على تأمين» مع الأخذ بعين الاعتبار مجموعة 
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من السوابق (مثلاً اللاتيني ممن يتراوح عمره بين 39-30): وغير مواطن» وحاصل 
على تعليم أقل من التعليم الثانوي)» مقسوم على الاحتمال البسيط الذي يفيد عدم 
الحصول على تأمين في مجموع الساكنة. وإن معدل رفع 5.87» يخبرنا بأن المجموعة 
الفرعية ذات المصلحة» تصل إلى 5.87 مرة أكثر من احتمال الافتقار إلى تأمين صحي 
من متوسط الساكنة. ولأننا وضعنا الحدٌ الأدنى للثقة فى حدود 70,. وأن معدلنا 
الأساسى للافتقار إلى التأمين هو 13.63/» فإننا قط ديات اعرف ذات 
رافغات تضل إلى 3 أو أعلى من ذلك. 


نرى في هذا الجدول ظهور المؤشرات مراراً وتكراراًء ومردّ ذلك. أحياناً - إلى 
كون المؤشر مألوفاً ببساطة (مثل شراء الحليب أو الخبزء في بيانات محل البقالة). 
ولكن ليس هذا ما يحدث بشكل واضح في أغلب الأحيان هناء ذلك بإن فئتات 
الأغلبية» أو حتى الفئات المشروطة - ليست سائدة» وفى حالة من هذا القبيل» تعد 
النتائج أكثر أهمية وإفادة. كما يوضح الجدول بجلاء إخفاق النظام الحالي للتأمين 
الصحي - على الأرجح - في توفير ضمان صحي لمزيد من السكان المهمشين - أي 
من غير المواطنين بخاصة. وأولئك الحاصلين على تعليم رسمي قليل» والشباب» 
والعاطلين. وحيثما تصادفت مجموعة قليلة من هذه المؤشرات»؛ ارتفعت معدلات 
الافتقار إلى التغطية الصحية بشكل لافت للنظر. 


لاحظ أننا حددنا الحدّ الأدنى لثقة القاعدة فى معدلات مرتفعة جداء ويمكننا 
تحديدها في معدلات أقل بكثير» ولكن قد نحصل بعدها على مزيد من قواعد الترابط. 
وفى هذه البيانات» إذا حددنا الحدّ الأدنى للثقة في حدود 90: فلن نجد أي قواعد 
لالمرة يها أن تشففه إلى 80 قبل إيجاذ قاعدة ممعقلة: :نكن بع هذا سيريد فريك 
من الانخفاضات فى الثقة من عدد القواعد الموجودة؛ أضعافاً مضاعفة. وفى حدود 
0 نجد (كما في المعطى أعلاه) 16 قاعدة. وفي حدود 40 يرتفع إلى 815: وهكذا. 
وأخيراًء إذا حُدَّد الحدّ الأدنى للثقة في 15» فقط فوق متوسط الساكنة التي تفتقر إلى 
التأمين الصحيء, فسنجد 6,729 قاعدة. ومن ثم» فإن تخفيض الثقة يلقي بشبكة أكبر» 
ليسمح ذلك بجمع مزيد من المعلومات المفيدة حول مجموعات فرعية مهمة 
احتمالآء ولكن على حساب إثقالنا بالمعلومات (الشكل رقم 2.14). وفي هذه 
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النقطة. تكون غاية تمرين التنقيب في البيانات قد انهزمت» وعوض استخدام القوة 
الحاسوبية لإبراز الأنماط المفيدة داخل قدر ضخم من البيانات» كان عليئا تنظيم هذا 
القدر الهائل من البيانات على نحو مختلف. والعمل على بذل قليل من الجهد في 
سبيل التبسيط. 





الشكل رقم 2.14: عدد من قواعد الترابط العامة 
عند مستويات مختلفة من الحد الأدنى للثقة. 

إن التنقيب فى قاعدة الترابط هو تقنية من تقنيات التنقيب فى البيانات المستعملة 
غالباً فى إعدادات تجارية» ولكننا بيّنا آنفاً إمكانية استعمالها بشكل مفيد من قبل 
الباحثين من أجل غايات استكشافية. إن قواعد الترابط يمكن أن تساعد الباحثين على 
استكشاف حالات وتجميعات من الحالات التي تحدث بشكل متكرر بالإضافة إلى 
نتيجة هدف معينة. وبينما لا تمنحنا القواعد المولّدة أي معلومة حول الطبيعة السببية 
للعلاقة بين السوابق واللواحقء فستبقى إيحائية جداًء ولكن بالإمكان أن تكون مثمرة 
في اقتراح مسارات مهمة في البحث. إذا ما استخدمت بالاشتراك مع طرق استكشافية 
أخرى. 
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استنتاج 


ما هو القادم؟ 

لقد مر أكثر من نصف قرن على بداية انتشار الحوسبة عبر المجتمع» ليصبح 
تأثيرها بديهى فى العديد من مناحى حياتنا. ولما شرعت الأعمال التجارية فى تركيب 
الخو اسَيت في الستينيات والسعيناتوق ذلك وَفَق عوك ور عدا 
في الذهن: العمل على «جعل» أنواع معينة متنوعة من سجلات المعاملات التجارية 
«آلية» من أجل تقليص نفقات إعداد الفواتير والاستعانة بالحسابات والميزانيات 
العمومية. ويدرك القليل أن إحدى المنتوجات الثانوية 2:0010-لإ8) المهمة. قد 
تمثل طوفاناً من بيانات الأعمال التجارية التي تمكّن المديرين من الولوج إلى تفاصيل 
المبيعات أو تدفق المال في تلك اللحظة بالذات» عوض انتظار إغلاق الحسابات في 
آخر الشهر أو العام. كما أدركت الشركات سريعاً إمكانية تحليل آلاف التفاصيل من 
المعاملات التجارية لتحديد أجزاء الشركة ذات الأداء العالي والمنخفض. بغية 
تقليص حجم المخزون للتحول إلى توفير منتوج في الوقت المناسب. أو إلى مبيعات 
وإعلان أكثر دقة. إن بيانات المعاملات التجارية تغيرت من كونها عبء عمل ورقي 
إلى كونها مصدراً قيماً للمعلومة» واستبصاراً حول عمليات وعروض تجارية. إن 
عصر البيانات الضخمة قد بدأ. 


لقد أصبحت مصادر معلومات وإمكانات جديدة متاحة للتحليل بما أن قدراً 
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كر من الاتصال تحول إلى اتصال رقميء أو انتقل عبر الإنترنت. نستطيع متابعة 
الأوبئة من خلال الاستفسار عن الأعراض عبر الإنترنت؛ واستكشاف مشاعر الرأي 
العام من خلال تحليل عدد الكلمات المدرجة في وسائل الإعلام؛ كما يمكن تعقب 
التحولات في استخدام اللغة عبر وثائق غوغل» وفحص الشبكات الاجتماعية» 
وانتشار الأفكار؛ إضافة إلى (إذا كنا نمثل وكالة الأمن القومى) التجسس على 
المكالمات الهاتفية الرقمية» والبحث عن الإرهاببين أو عن (إبر في أكوام قش» أخرى 
من خلال البحث عن أنماط في مقدار ضخم من البيانات. 

في بداية الأمر تم تطوير طرق التعليم الآلي» وطرق التعرّف على الأنماط على يد 
علماء الحاسوب. وعلماء الرياضيات التطبيقية لغايات عملية مثل التعرف على خط 
اليد وعملية فرز آلية للبريد. والترجمة الآلية» والرؤية الروبوتية. ولكن امتدت هذه 
الطرق بسرعة إلى الطرق التي نحلل بها البيانات الكمية بشتى أنواعها. ونتيجة لذلك» 
أصبح التحليل والتنقيب في البيانات مجالين مزدهرين؛ فالتنقيب في البيانات مشروع 
توسّع بشكل سريع. ليعطي ميلاد تخصص جديد, يدعى «علم البيانات»» وتخصصات 
مهنية جديدة. 

لقد كانت غاية هذا الكتاب تقديم مدخل ميسر إلى بعض من هذه الطرق. وبالنظر 
إلى تكاثر الدورات الدراسية حول التنقيب فى البيانات وتحليلات المعامللات 
التجارية» نتوقع قرار العديد من الثامن تعلو تهذه الطرق الجديدة من أجل تحليل 
البيانات. ومن ذلكء نقر بأن هذا المجال من البحث لا يزال في مراحله الأولى؛ 
وتوجد أصلاً بعض الحواجز التي تعرقل تطوره في المستقبل. وليس مصدر هذه 
العراقل» مجتمعات علوم الحاسوب أو الرياضيات التطبيقية التي تعد مبتكرة بوضوح 
بنسبة استثنائية» لتنتجح طرقا وخوارزميات جديدة. ولكنء تبقى البرمجيات تطرح 
مشاكل. وغالباً ما يكتب مختصو التنقيب في البيانات الأذكياء برامجهم في المتالاب 
(814118) أو البيثون (1007ل2)» ولكن سيكون معظم المختصين في التنقيب في 
البيانات الطموحينء غير راغبين أو قادرين على إنتاج برنامج بدءأ من الصفر. وكما 
سيلاحظ القراء. إننا لجأنا - في المقابل - في هذا الكتاب إلى لوحة منتوجات سهلة 
الاستخدام بشكل معقول. وتتاخه علي تكل واسع» للغديم ار عامة عن طرق 
التنقيب في البيانات» تيان باستخدام «الغامب برو». وأحنيانا باستخدام منمج 
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الحزمة الإحصائية للعلوم الاجتماعية (5855)» وأحياناً أخر باستخدام 8. وهكذا. 
وإن هذا التشظي لأدوات برمجية سهلة المنال - لعدم وجود حالياً أي حزمة مستقلة 
تغطي كُلّ الأدوات التي يحتاجها المرء - تنتج عبئاً لمختصين محتملين في التنقيب 
ق البيانات. وهناك منحنى تعلم حاد (ع0150ان) 63111128[ معه51) 0 الاستئناس 
بأنواع مختلفة جدا من البرمجيات. 


إننا في بعض الأحيان بعيدين كل البعد عن الإعجاب بجودة هذه المنتوجات» 
على الرغم من استخدام جميعها. وفي كثير من الأحيانء يتوقف البرنامج كلية عن 
الاشتغال» أو يشتغل دائماً. وقد تحدث هذه المشاكل عندما تكون بموعات 
الباناق قكةة أكدوية القن كخزالة. وبيدو جز العيك ككانة كتانيه والمره مقتوياً 
بالبيانات الضخمة» وبعدها تقديم أمثلة متوسلين بحالات لا تتجاوز المائة» وهو ما 
يجد المرء - مع ذلك - في العديد من الكتب في هذا الموضوع. لقد حاولنا اجتناب 
القيام بذلك» واستخدمنا في هذا الكتاب بيانات ذات حجم معتبر متى كان ذلك 
ممكناء ولكن يجب على القراء أن يدركوا إمكانية أن يصادفوا إحباطات ممائلة لدى 
تطبيقهم التنقيب في البيانات على مجموعات بياناتهم الواسعة. نتمنى أن تخف حدة 
هذه المشاكل سريعاً كلما أصبحت متتوجات البرمجيات أكثر شمولية فى الآدوات 
الى هونا ةو كلجا تفن معدو الرمصيات من إمكاقة ادجاس عات اناك 
ضخمة. ولكنء في الآونة الراهنة لا تزال هذه المشاكل تشكل خطراً. 


مازال تحليل بياناتناء يتطلب فى تجربتنا استبصارات وخبرة جمة لدى المحلل» 
على الرغم من تقديم التتقيب في البيانات أدوات آلية. ولا يمكن للمرء إدخال - 
ببساطة - بيانات أولية (10818 /1438) داخل هذه البرامج» ويتوقع الحصول على أي 
شيء مفيد. إن خبرة المحلل حاسمة في تحديد المشكل أو السؤال المعالج. وإن 
ودالحة البيانانت قيلياً خين خلال المع فى المتغيرات الى ضع ولق كني فياضها 
- هي مرحلة تستهلك الوقت والتفكير معاً. إن التحاليل الاستكشافية للبيانات - من 
خلال البحث عن السمات والمتغيرات المهمة» والوقوع في الحيرة بسبب نتائج غير 
متوقعة أو الافتقار إليها أصلاً - تطرح إشكالاً دقيقاً؛ ذلك بأنه في العديد من الحالات 
تكون مسألة اختيار التقنية معقدة. هناك العديد من البدائل» وربما يريد المرء بدائل 
متعددة. وفي تجربتناء تتحسن النماذج بشكل كبير بفضل الضبط (08أهنا6-1م11) 


3065 


عبر التجربة والخطأ (51207 380 15181): وتعديل المَعْلمات. وأخيراء تعد ترجمة 
النتائج من التحاليل إلى شيء يمْكن للعملاء التجاريين أو الزبائن فهمه. تعهداً غير 
قاقة: 

وبالتالي» كي يصبح المرء مختصاً في التنقيب في البيانات» تشمل الخطوة التالية 
- بعيدا عن إتقان مضمون هذا الكتاب - تطوير هذه الاستراتيجيات والمهارات عبر 
الانخراط الواسع في البيانات والمشاريع. 
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الثبت التعريغي 


أشجار الانحدار والتصنيف 5ع126 دوزووءمع122 سه سمنادء 3 لوقة1©)) 
(04187: هي طرق تعليم آلي من أجل تشكيل نماذج تنبؤ انطلاقاً من بيانات. ويتم 
الحصول على هذه البيانات بواسطة التقسيم العودي لحيز البيانات» والعمل على 

٠. 00.‏ 2 5 ع ا 5 2 0 
مواءمة نموذج تنبؤ بسيط داخل كل تقسيم. ونتيجة لذلك. يمكن للتقسيم تمثيل 
شجرة الفران سانا 

أشجار القرار (156©5 16©15108): تشير إلى شكل بسيط وقوي من أشكال 
التحليل المتعدد المتغيرات» ويتم إنتاجها من قبل الخوارزميات التي تحدد طرقاً 
متنوعة من تقسيم مجموعة بيانات إلى قطع شبيهة بالفروع. 

انحدار تدريجى (صمذووءمعوء12 عوتززمء]5): إنه أداة آلية» تستخدم في المراحل 
الاستكشافية لبناء نموذج ما بغية تحديد مجموعة فرعية مفيدة للمتنبئات. ويضيف 
هذا الإجراء المتغير الأكثر دلالة أو يزيل المتغير الأقل دلالة خلال كُلَ خطوة. 

انحدار الطبقة الكامنة (2وؤووء7ع1 01855) 186624): يشمل انحدار الطبقة 
الكامنة تشكيل طبقات كامنة لمجموعات فرعية أو قطع غير مرصودة لحالات ما؛ أي 
إنه يربط مجموعة من المتغيرات المتعددة التباينات المرصودة بمجموعة متغيرات 
كامنة. إنه نوع من نموذج متغير كامن. ويدعى نموذج طبقة كامنة» لأن المتغير الكامن 
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انحدار لوجيستى (صمزووءمعء12 غناوزوه.آ): هو أداة إحصائية» تروم التحليل 
مثل كُلَ أنواع تحليلات الانحدار. ويستعمل في وصف البيانات وتفسير العلاقة بين 
متغير تابع ثنائي ومتغيرات مستقلة عادية للغاية مثلاً. وهو صعب التفسير أحياناً. 


انحدار متعدد (186817©55108 16م3110101): هو وسيلة إحصائية يهدف إلى 
التعرف أكثر على العلاقة القائمة بين متغيرات مستقلة أو متغيرات متنبئة عديدة وبين 
متغير تابع أو متغير معياري. وبمجرد تحديد هذه العلاقة» يكون بإمكانك الحصول 
على معلومات حول جميع المتغيرات المستقلة» واستخدامها في تشكيل تنبؤات أكثر 
قوة ودقة حول السبب الذي جعل من هذه الأشياء أن تكون على الشكل الذي هي 
عليه. 


0 


انحدار المربعات الصغرى العادية 5013165 )5هعطآ1 لإتهستل0) 
(18687655100: هي طريقة إحصائية لتقدير المَغلمات غير المعروفة في نموذج 
الانحدار الخطي بغية تقليص مجموع مربعات الاختلاف بين الاستجابات المرصودة. 
وهي قيم المتغيرات المتنبأة في مجموعة بيانات معينة» وبين تلك القيم المتنبأة من 
قبل دالة خطية لمجموعة متغيرات تفسيرية. 

-أقرب الحيران (15نا0 7115 أوع116317-:1): هى إحدى خوارزميات 
التصنيف الأساسية في التعلم الآلي. وتستخدم في التصنيف ومشاكل انحدار تنبؤية. 

تحريف البيانات (10108128 10868): وتدعى أيضاً «اصطياد البيانات»)» وهى 
ممارسة التنقيب في البيانات حيث تحليل أحجام هائلة من البيانات للبحث عن 
علاقات ممكنة بين البيانات. وأما الطريقة العلمية التقليدية» فتبدأ بفرضية ماء وتُتبع 
بفحص للبيانات» على عكس تجريف البيانات التى تسعى إلى استكشاف أنماط أو 
ارتباط متغيرات» يمكن تمثيلها باعتبار أن لها دلالة من حيث الحصيلة الإحصائية. 
دون اقتراح فرضية محددة حول السببية الأساسية. 

تجميعات الحاسوب (05]©15ا01) 0013010661)): هى تجميعات تحتوي على 
مجموعة من الحواسيب المترابطة ارتباطاً وثيقا وتعمل معاء فيتم اعتبارها نظاماً 
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واحذاً. ولدى كل عقدة من عقذ تجميعات الحاسوت: الْمَهمة نفشها الموكلة إليهاء 


تحليل المكون الرئيسى (17515[قضة 1هع08مظ02©) [ومتعمءط) (04)ط): هو 
تقنية تستخدم للتركيز على التباين» والوقوف عند أنماط قوية في مجموعة بيانات: 
وغالباً ما يستخدم أيضاً لتسهيل عملية استكشاف البيانات بشكل واضح. 

تحليل المكون المستقل (15515[ق صخ 0224 مم00 غصعلمعءعمء0ه1) (4ن1): 
هو تقنية إحصائية وحاسوبية لاستكشاف عوامل خفية مؤسسة لمجموعات متغيرات 
عشوائية» وقياسات» وإشارات. 


تصحيح بونفيرونى (2وناعع011) أصمنترء1م80): إنه تصحيح يعتمد المقارنة 
المتعددة المستخدمة عندما تنجز عدة اختبارات إحصائية تابعة أو مستقلة فى آن 


واحد. 


تعيلم آلي (1.63188 »نط 1/19): هو حقل فرعي من حقول علوم الحاسوب». 
التي تمنح الحواسيب القدرة على التعلم دون أن تكون مبرمجة بشكل واضح. 

تقسيم الأشجار (9:41108 17665): هي أداة التنقيب في البيانات النموذجية؛ 
فهى بسيطة» وفعالة» وتعتمد على البيانات» بشكل مطلق؛ إنها أولاً وقبل كل شىء. 
مصنف» تستعمل خصائص المدخل لخلق نموذج يقسم حالات إلى فئات ذات قيم 
مختلفة على مستوى نتيجة ذات دلالة. 


تقسيم عودي (مسنده2:)1 علاأورداء186): إنها خوارزمية» تشير إلى فكرة 
بسيطة جداً من التجميع؛ وهي عكس التجميع التراتبي» كما تشير إلى عملية متدرجة» 
تتشكل خلالها شجرة قرار ما بواسطة تقسيم أو دون تقسيم كَل عقدة على حدة إلى 

حزمة إحصائية للعلو 1 الاجتماعية 506121 عط) :101 ععدعلء 2 لدع ن)ا15)ة)5) 
(وععمء 5 (5255): هي برمجيات تستخدم في التحليل الإحصائي لإدخال 
البيانات» وتمثيلها في بيانات وجداول. وهي قادرة على معالجة بيانات ضخمة. 
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التنقيب فى البيانات (7112128 1(863) (1014): يطلق على مجموعة من تقنيات 
الحاسوب المكثف. بغية استكشاف البنية» وتحليل الأنماط فى البيانات. 

حيلة أو خدعة النواة (151 [©ه,»؟1): هي تقنية من تقنيات التعلم الآلي 
إجرائياً إلى كونه غير إجرائي. 

مربع كاي للكشف عن التفاعل التلقائي ع ةدرماس4 0ع تنهسو0111-5) 
(7ماععاء12 ممنتاعوضء )هآ (11411)): يشير إلى خوارزمية» تستعمل من أجل 
استكشاف العلائق القائمة بين متغير الاستجابة الفئوية» ومتغيرات متنبئع فئوية أخرى. 
ويستخدم مربع كاي للكشف عن التفاعل التلقائي عندما نبحث عن أنماط في 
مجموعات البيانات ذات تغيرات فئوية كثيرة» وهو طريقة مناسبة لتلخيص البيانات 
باعتبارها علائق. يمكن رؤيتها بسهولة. 

«رابدمايئر) أو منقب سريع (101112م183): هي منصة برمجيات علوم بيانات 
تم تطويرها من قبل الشركة التي تحمل هذا الاسمء وتحتوي على مجموعة من 
الوسائل للتنقنت فى البيانات. إنه صعب الاستخدام» ولكن بمزيد من الممارسة» 
يمكن للمحلل الحصول بسرعة على سلسلة كاملة من معالجة البيانات. 

ستاتا (5)8)2): إنها حزمة برمجيات ذات غاية إحصائية عامة. بحيث تمتد 
قدرات «الستاتا» لتشمل إدارة البيانات» والتحليل الإحصائي» والرسوم البيانية» 
وإعداد البرامج. ويتكون الاسم من كلمتي إحصاء وبيانات. 

شعاع الدعم الآلي (5ءسلطءة21 :هغء176 ممم ن5): هي نماذج تعليم مراقب 
ذات خوارزميات تعليم مرتبط. يحلل البيانات لاستخدامها فى التصنيف وتحليل 
الانحدار. وقد استخدمت هذه النماذج في شتى العلوم مثل علوم الأحياء لتصنيف 
البروتينات. 

صلاحية متبادلة (055-7791108101012)): هي تقنية تستعمل في تقييم كيفية 
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طرق «بايز) الساذج (016)005 و83 1121386): هى مجموعة من خوارزميات 
التعليم المراقبء, القائمة على تطبيق نظرية بايزء في علاقتها بالافتراض الساذج 
للاستقلال بين كُلّ زوج من السمات على حدة. كما تعد طرقاً إحصائية للتصنيف. 

غامب برو (810 31311): هو نسخة تحليلية متقدمة من «الغامب» الذي يمكننا 
من استخدام البيانات التي بحوزتنا لتوقع المستقبل بشكل أفضل والتخطيط له. 
و«الغامب برو» برمجية» يقدم كَل البيانات المتفوقة بشكل واضح. 

فرضية صفرية أو (عدم) (وذوع )0م113 11س/ة): تمثل الفرضية الصفرية ب ,1ك 
وهي عادة فرضية تقوم بمعاينة ترصدات تنشأ صدفة. وهي تقوم على فكرة عدم وجود 
أي علاقة بين ظاهرتين تم قياسهماء أو أي ترابط بين مجموعات. 

اللاسو (22]01عم0 صمناععاء5 لسة ععفكلمتقتطك عاساموطهة أذوع.1) 
انتقاء المتغير والتضبيط بغية تحسين دقة التنبؤ وتفسير النموذج الإحصائى الذي 


متغير (17311216): قد يكون الوسر شنا أن حدث أو فكرة» أو شعورء أو فترة» 
أو أي فئة تحاول قياسها. 

متغيرات تابعة (1781181©5 غ)19606206): المتغير التابع هو ما يتم قياسه في 
التجربة» وهو الذي يتأثر خلال هذه التجربة. ويدعى تابع لأن وجوده «ايتوقف» على 
وجود متغير مستقل؛ ومن ثمء لا يمكن تصور متغير تابع من دون متغير مستقل. إذا 
كنت مثلاً مهتمأ بمقدار تأثير الضغط في معدل ضربات القلب لدى الإنسان. فسيكون 
متغيرك المستقل هو الضغط. ومتغيرك التابع هو معدل دقات القلب. ويمكنك بشكل 
مباشر معالجة مستويات الضغط لدى المبحوثين» وقياس كيفية تغيير مستويات 

متغيرات مستقلة (172118165 1206068206226): هو متغير قائم بذاته ولا تغيره 
متغيرات أخرئ. قد يكون العم مثلاً متغيراً مستقلا» ذلك بأن عوامل أخرى من قبيل 


3/1 


«نوع الأكل الذي يتناوله» صاحب هذا العمرء وكم من مرة يتردد على المدرسة» وكم 
من ساعة يشاهد فيها التلفازء هى أمور لا تغير العمر. 


عام 


متغيرات مستمرة (772112165 00212110115)): إذا تمكن متغير ما من أخذ خذ أي 
قو نزو فوته التصوف وقنوفة لديا غبار حير اهراز ذا احم عد متغير 

متغيرات وهمية أو صورية (181135165/ '100011112): هو متغير رقمي يستخدم 
ماء غالباً ما يستخدم متغير وهمي في التمييز بين مجموعات العلاج المختلفة. 

مصفوفة ارتباك (21):18 «15أود4ه0")): وتحتوي على معلومات حول 
التصنيفات الحقيقية والمتنبأة» التي تتم بواسطة نظام تصنيف ما. وإن أداء هذه النظمء 
تقيم عادة من خلال استعمال البيانات في المصفوفة. وتستمد مصفوفة الارتباك قوتها 
انطلاقا من تحديدها لطبيعة تصنيف الأخطاء وكمياتها. 

مصفوفة ترابطية أو علائقية (1/18)112 017191108©): تشير إلى جدول يعرض 
معاملات ترابطية بين مجموعات من المتغيرات. إنها تفحص طبيعة التبعية بين 
متغيرات متعددة في الوقت نفسه. 

معامل تضخم التباين (01)ع12 112)102هآ1 ععسدتتيه771700)1): عوامل تقيس 
مقدار تباين تضخم معاملات الانحدار المقدرة مقارنة بالحالة التي تكون فيها 
متغيرات المتنبوع غير مترابطة خطيا. 

معاملات الانحدار (2)5ء0061411©1) «ولووء7ع16): معامل الانحدار فى 
الإحصائيات» هو «4) الثابتة في معادلة الانحدار التي تخبرنا عن تغيير قيمة المتخ 

مو في ر خيودا كن العمبر 2 

التابع الذي يوافق تغير الوحدة ذ في المتغير المستقل. 

معيار أكايكى للمعلومة (168رء)031 صمتأمصدمكسآ ععالتهءلة) (410): إنه 
معيار يستخدم فى العديد من المجالاات العلمية» لمقارنة جودة مجموعة من النماذج 
الإحصائية المتنافسة» وانتقاء الأنسب منها. 
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معيار بايز للمعلومة (11)11018ن) 1018212)1012هز وع:823) (18100): هو معيار 
يستخدم في انتقاء نموذج ما من بين مجموعة نماذج محدودة» بحيث ينتقى أساساً 
النموذج الذي لديه أقل نسبة من معيار بايز للمعلومة» وهو وثيق الصلة بمعيار أكايكي 
للمعلومة. 

منحنى خاصية التشغيل المتلقى (ع15)5صعاء2 تقطن) كستادمعم0 ع جلءء18) 
(18060): هو رسم بياني» يوضح ناد نظام تصنيف ثنائي كلما تباينت عتبة التمييز. 
وهي طريقة تقارن الاختبارات التشخيصية. كما أنه رسم بياني يمثل معدل الإيجابي 
الصادق مقابل المعدل الإيجابي الكاذب. 

نماذج الشبكات العصبية (8100615 ع2167011 [2انا/2): الشبكة العصبية 
نموذج بيانات حاسوبية قوية» قادرة على ضبط وتمثيل العلاقات المدخلة والمخرجة 
المعقدة. وكان الدافع من وراء تطوير هذه الشبكة» هو تشكيل نظام اصطناعي يمكن 
أن يؤدي مهام ذكية شبيهة بذكاء عقل الإنسان. الذي يكتسب المعلومة ويخزنها. 

نمذجة جزئية المربعات الكامنة الصغرى )1.2662 501215 أووع.آ لدناعيدط) 
(58ذا21006: هي طريقة إحصائية تستخدم في تشكيل نماذج تنبؤية عندما تكون 
العوامل متعددة وخطية مشتركة بشكل كبير» كما تستخدم لإيجاد علاقات أساسية 
نين مضدوين ولا 
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أشجار القرار 

عآ-أقرب الجيران 

انحدار تدريجى 

انحدار الطبقة الكامنة 
انحدار لوجيستي 

انحدار متعدد 1 

انحدار المربعات الصغرى 
العادية 

تجريف البيانات 


ثبت المصطلحات 
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5117715 60 
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12011 
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نماذج الشبكات العصبية 
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عامصوك-ع اعساذ» .1997 بعلتدا 8 .لخ لزعاصداذ لطه .عط تتعط80] رعنعاء2ةآ 
7 1ع لبا 1جعاع10مطعنزو «.12610025ع02011) 8/1320 101 5أوهء1' 

.8 .5322501 .ل أمع106 لطة ,متعدلة .5 اعتصود»آ .11 صطمل رطبهج] 
عطا 300 5عع11311128 000) :01120128 231 لمطتن) صا عع سمقطن) 01 د65 11ماءه [11:2) 
.630)2(:225-8 للاعالا11 506101081621 11221ع ملم «.ووعع270 ع15]320وع106 

50001 ألعاهآ .1968 «ختمعاط .لا ازعل8 لصة بتاع ابوط ,1327315110 
111 ممغطع نام ملا تعلطا .0219515م 

ع2ع20عمع20] عط]' :نارهط غ2 (وع:2ه82) 8]107» .1998 .10 103010آ ,واتتاعآ 
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تطط ارمع لم راماودعروع ]1 )125 لذ :0م زووعرعوع1 1/15 .2011 .لالاع002آ رضاآ 
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302 
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1-9: (42)10 عتنته 50177 
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العلاظية ماسر رسع على ا ل 0 





الؤلف: يول أنيزيل! أمتاذ مسيز في غلم الاجناءغ لي 
حول أعطيل اللييانالث, 
20 موناطان: 1 71 نه ار 1117 © ج147 
امع يريرك: واعض 
حول طرق البحن نكي والديسفراي رالتسليم: 
التترجهم. عبد السور عبرافي: لستاة اللشريات, والمبير المسؤول 
رن كر 002 والطانك والترجةة يلم 
الننة الإتجليزية: يككلبة الأماب والمطرم الإلسائياء رجدك, 
3 الغرب. والمزول عن التكرينات المسرة بالإنسليزية 
«بسرآك اللغات والتواصل» الننابم لجاممة مسد الأول برجشة» 


المنظمة الغربية للترجمة ''" الخرب 


الك ع 1ك 
الفياجترانا اللا اللا 


